Problemy Elektronikiifelekomunikacji 


Problemy Elektroniki 
i Telekomunikacji /45 


Prezydium 

Komitetu Doradczego 
Przewodniczący 

prof. dr inż. STANISŁAW SŁAWIŃSKI 
oraz 

prof. dr inż, EDWARD KOWALCZYK 
prof. dr inż. WŁADYSŁAW MAJEWSKI 
mgr CZESŁAW KULESZA 

Członkowie: 

doc. dr inż. JACEK KuAK 

prof. dr inż. WITOLD NOWICKI 
prof. dr inż. WOJCIECH OSZYWA 
prof. dr inż. BOHDAN PASZKOWSKI 
prof, dr inż. MARIAN SUSKI 

prof. dr hab. inż. ANDRZEJ WOJNAR 
prof. dr inż. MARIAN ZIENTALSKI 
Sekretarz naukowy 

dr inż. WOJCIECH MASIAK 


BYKE 


prof. dr hab. inż. RYSZARD TADEUSIEWICZ 


Sygnał mowy 


Wydawnictwa Komunikacji i Łączności 
Warszawa 1988 


Opiniodawca: 

dr inż. RYSZARD GUBRYNOWICZ 
Redaktor: 

mgr inż. IZABBLA EWA MikA 
Opracowanie graficzne całości : 
TADBUSZ PIETRZYK 

Redaktor techniczny: 

JADWIGA MAJEWSKA 

Korekta: 

ALICJA KALINOWSKA 


W książce omówiono metody 
wytwarzania mowy, w tym: 

budowę traktu głosowego, 

mode! procesu wytwarzania 

mowy, zagadnienia percepcji mowy 
(model systemu słuchowego, 
psychologiczne aspekty percepcji 
mowy), metody opisu sygnalu mowy 

(w dziedzinie czasu i częstotliwości) 
oraz problemy związane z wytwarzaniem 
i rozpoznawaniem mowy w automatyce 
i telekomunikacji. 

Odbiorcy: inżynierowie elektronicy i studenci. 


534.4 


Tytuł dotowany przez 
Ministra Nauki i Szkolnictwa Wyższego 


ISBN 83-206-0705-1 


© Copyright by Wydawnictwa Komunikacji 
i Łączności, Warszawa 1987 


Wydawnictwa Komunikacji i Łączności, Warszawa 1987 
Wydanie 1. Nakład 2150+ 350 egz. 

Ark. wyd. 20. Ark. druk. 17,5 (23,27A) 

Oddano do składania we wrześniu 1986 

Podpisano do druku w paździetniku 1987 

Papier druk. sat, ki. IM, 70 g, 70x100/16 

Zamówienie P/87/86. K/9805 

Drukarnia im. Rewolucji Październikowej w Warszawie 
Zam. 4078/11/87. K-33 


Spis treści 


Od Autora/7 


1. Wprowadzenie strona 9 
2. Wytwarzanie mowy strona 12 
21. Uwagi wstępne/12 
2.2. Struktura i czynności traktu głosowego/13 
2.3. Wybrane szczegóły budowy traktu głosowego i problemy jego stero- 
wania/19 
2.4. Model procesu wytwarzania mowy przez człowieka /29 
2.5. Wytwarzanie mowy z wykorzystaniem systemów technicznych/50 
3. Percepcja mowy strona 61 
3.1. Wprowadzenie/61 
3.2. Zbiorczy mode! niższych pięter systemu słuchowego człowieka/65 
3.2.1. Wstęp/65 
3.2.2. Założenia i ograniczenia przyjęte przy budowie modelu/66 
3.2.3. Struktura modelu/66 
3.2.4. Model części mechanicznej systemu słuchowego /70 
3.2.5. Model receptora słuchowego/78 
3.2.6. Model przekazywania informacji do części nerwowej systemu słucho- 
wego/85 


3.2.7. Uwagi końcowe/93 
3.3. Psychologiczne aspekty percepcji mowy/94 


Metody opisu sygnału mowy strona 99 


Opis sygnału w dziedzinie czasu/99 

Opis sygnału mowy w dziedzinie częstotłiwości/118 
Czasowo-częstotliwościowa zmienność sygnału mowy/141 
Parametryczny opis sygnału mowy/158 

Technika predykcji liniowej w opisie sygnału mowy/183 
Opis sygnału mowy z punktu widzenia teorii informacji/186 


Sygnał mowy w automatyce strona 194 


Rola sygnału mowy w systemach sterowania/194 

Możliwości automatycznego rozpoznawania mowy/197 
wprowadzanie sygnału mowy do systemu jej rozpoznawania/203 
Wydzielanie parametrów przydatnych przy rozpoznawaniu/212 
Problem segmentacji ciągłego sygnału mowy/217 

Rozpoznawanie elementów mowy /226 

Pozostałe elementy systemu rozpoznającego/242 


Sygnał mowy w telekomunikacji strona 247 


Sygnał mowy w kanale telekomunikacyjnym/247 
Metody kompresji sygnału mowy/253 

Wybrane problemy kryptofonii/262 
Zakończenie/265 

Literatura/271 


Od Autora 


Książkę napisano opierając się na pracach naukowych prowadzonych 
w Zakładzie Biocybernetyki Instytutu Automatyki, Inżynierii Systemów 
i Telekomunikacji Akademii Górniczo-Hutniczej. Tematem tych prac było 
modelowanie systemu percepcyjnego człowieka, ze szczególnym uwzględ- 
nieniem analizatora słuchowego oraz z ukierunkowaniem tych prac na 
analizę i rozpoznawanie naturalnego sygnału mowy polskiej. Mimo więc 
podręcznikowego charakteru książki, wskazane wyżej zagadnienia zostały 
w niej potraktowane obszerniej, a inne problemy ujęto skrótowo. W ten 
sposób materiał książki uzupełnia dostępne w kraju piśmiennictwo na temat 
problematyki analizy, syntezy, rozpoznawania i transmisji sygnału mowy 
o te elementy, które na ogół nie były w tej postaci publikowane. Studiując 
książkę Czytelnik może i powinien sięgać także do innych publikacji i pod- 
ręczników, wymienionych na końcu książki, choć opisany materiał, w sensie 
wiedzy podstawowej, jest kompletny i odpowiada współczesnym poglądom 
na temat sygnału mowy oraz metod jego analizy i przetwarzania. 

Autor poczuwa się do miłego obowiązku podziękowania wszystkim tym 
Instytucjom i Osobom, które przyczyniły się do powstania książki w jej 
obecnej postaci. I tak większość badań, referowanych w książce, była ko- 
ordynowana i finansowana (częściowo) przez Komitet Biocybernetyki Pols- 
kiej Akademii Nauk oraz Instytut Biocybernetyki i Inżynierii Biomedycznej 
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PAN w ramach problemu badawczego nr 06.9.01.5. Pomiary i analizy sygna- 
łu dźwiękowego prowadzone były w całości w Instytucie Mechaniki i Wibro- 
akustyki AGH, którego Dyrektorowi, Profesorowi Zbigniewowi Englowi 
składam tą drogą podziękowanie za wieloletnią, bezinteresowną pomoc 
w realizacji licznych przedsięwzięć naukowych. Obliczenia komputerowe 
oraz kreślenie większości rysunków do książki odbywało się w Środowisko- 
wym Centrum Obliczeniowym CYFRONET w Krakowie z wykorzysta- 
niem komputera CYBER 72. Dyrekcji i personelowi tego niesłychanie 
sprawnie funkcjonującego, nowocześnie zorganizowanego i bardzo sumien- 
nego ośrodka obliczeniowego należą się kolejne wyrazy wdzięczności. Więcej 
niż kiedykolwiek mogłem oczekiwać bezinteresownej i merytorycznie bez- 
cennej pomocy uzyskałem od polskich uczonych, zajmujących się proble- 
matyką analizy i rozpoznawania mowy. Nie jestem w stanie wymienić 
wszystkich, których rady i inspirująca krytyka wzbogaciła moją wiedzę 
i pozwoliła mi na podjęcie próby opracowania tej książki, pozwolę sobie 
zatem wymienić jedynie tych, którym zawdzięczam najwięcej: Profesorów 
Janusza Kacprowskiego i Wiktora Jassema z Instytutu Podstawowych 
Problemów Techniki Polskiej Akademii Nauk. Wreszcie muszę podkreślić 
wielki wkład, jaki w powstanie tej książki wnieśli moi współpracownicy z Za- 
kładu Biocybernetyki AGH: doktorzy Leszek Kot, Andrzej Izworski 
i Zbigniew Mikrut. Bardzo wielu usterek merytorycznych i niedociągnięć 
językowych udało się uniknąć dzięki bardzo wnikliwej, krytycznej recenzji 
dra Ryszarda Gubrynowicza z IPPT PAN. 

Wszystkim wymienionym, a także licznym nie wymienionym z powodu bra- 
ku miejsca pragnę serdecznie podziękować. Wszystko, co jest w tej książce 
dobre i wartościowe, jest także poniekąd ich dziełem, natomiast pomyłki, 
jeśli się wkradły, stanowią moją wyłączną winę. 


Kraków, czerwiec 1986 


Wprowadzenie 


Istnieją zjawiska, których złożoność przekracza wszelkie wyobrażenie, a któ- 
re subiektywnie oceniamy jako pospolite i banalne. Dopiero bliższe zbadanie 
tych zjawisk, a w szczególności próba wykorzystania ich na gruncie techniki, 
uświadamiają, z jak bardzo skomplikowanym obiektem mamy do czynienia. 
Do zjawisk omawianej klasy należy mowa. Doskonałość naturalnego 
systemu artykulacyjnego, jakim dysponują niemal wszyscy ludzie, powoduje 
powszechne wrażenie, że proces artykulacji jest łatwy, prosty, naturalny. 
Tymczasem w rzeczywistości język, wargi i struny głosowe wykonują ty- 
siące ruchów precyzyjniejszych od manipulacji zegarmistrza i szybszych niż 
ewolucje akrobaty na trapezie. Powstający przy tym zespół dźwięków za- 
wiera mnóstwo różnorodnych informacji. Są wśród nich semantycz- 
ne — związane z treścią wypowiedzi, osobnicze — pozwalające roz- 
poznać osobę mówiącą, emocjonalne— dzięki którym można 
stwierdzić, że osoba mówiąca jest wzruszona, zdenerwowana lub rozba- 
wiona, a także inne, pozwalające rozpoznać (niekiedy), skąd mówiący po- 
chodzi, jaki jest jego status społeczny, wykształcenie, a także stan zdrowia. 
Wszystkie wymienione rodzaje informacji można z dźwięku mowy „wy- 
łowić” odpowiednio wprawnym uchem, przy czym proces ten wydaje się 
subiektywnie jeszcze łatwiejszy niż artykulacja. W rzeczywistości analiza 
dźwięków mowy, pozwalająca na ich rozpoznawanie i interpretowanie, jest 
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bardzo złożona. Zakres dynamiki, rozdzielczość częstotliwościowa, szyb- 
kość analizy, czułość ucha, wreszcie możliwości uczenia się i dopasowywania 
do zmiennych warunków — wszystkie te parametry biologicznego analiza- 
tora dźwiękowego przewyższają odpowiednie charakterystyki dostępnej 
obecnie aparatury. Tak więc mowa —- zarówno na etapie artykulacji, jak 
i percepcji i rozpoznawania — jest obiektem bardzo złożonym i trudnym, 
nasze zaś subiektywne wrażenie prostoty i naturalności procesu komunikacji 
głosowej jest wynikiem faktu, że w analizę i generację mowy przyroda za- 
angażowała ogromne fragmenty mózgu, w których zachodzą — bez udziału 
świadomości — tysiące procesów informacyjnych i regulacyjnych, angażo- 
wana jest pamięć, umiejętność uczenia, wreszcie — inteligencja człowieka. 
Przeniesienie tych czynności na grunt techniki napotyka więc ogromne 
trudności. 

Tymczasem z punktu widzenia techniki mowa, a dokładniej — sygnał mowy, 
stanowi nader ważny i interesujący obiekt. Jak stwierdzono wyżej, subiek- 
tywnie mowa jest najwygodniejszym i najbardziej naturalnym sposobem 
komunikowania się ludzi. W technice dokłada się więc starań, aby ten naj- 
dogodniejszy sygnał optymalnie wykorzystać w systemach komunikacji 
człowiek — człowiek i człowiek — maszyna. W pierwszym przypadku mamy 
do czynienia z systemem telekomunikacji, w którym warto sygnał mowy 
„przetworzyć i odpowiednio spreparować, aby przesyłanie wiadomości po- 
między ludźmi mogło odbywać się bez przeszkód, a równocześnie — możli- 
wie najtaniej. W drugim przypadku interesujące problemy mieszczą się na 
styku automatyki i informatyki. Sygnał mowy trzeba możliwie najefektyw- 
niej kodować i wytwarzać w systemach wykorzystujących komunikację gło- 
sową do przekazywania wiadomości od maszyny do człowieka, względnie 
sygnał mowy trzeba wszechstronnie i precyzyjnie analizować i rozpoznawać 
w systemach stosujących mowę do przekazywania poleceń człowieka wy- 
konywanych przez maszynę. 

Badania nad sygnałem mowy trwają, ale wciąż jeszcze naturalne, biologiczne 
nadajniki i odbiorniki tego sygnału wyraźnie dominują swymi parametrami 
nad osiągnięciami techniki. Jest to zresztą naturalne: mowa uformowała się 
w toku swego rozwoju tak, aby optymalnie wykorzystać ludzkie możliwości 
percepcyjne i artykulacyjne. Chcąc wkraczać z systemami technicznymi 
w taki optymalnie dopasowany układ trzeba istotnie wielu badań i wiele 
pracy. W tych badaniach i pracach konstrukcyjnych liczy się każda głowa 
i każda para rąk — zwłaszcza że każdy język ma swoje specyficzne cechy 
i jeśli analizatory i syntezatory mowy polskiej nie powstaną w laboratoriach 
polskich badaczy i w zakładach doświadczalnych polskich fabryk -— to ich 
nie będzie. Tymczasem odpowiedni poziom rozwiązań systemów analizy, 
transmisji i syntezy mowy będzie już wkrótce jednym z głównych wyróżni- 
ków nowoczesności systemów automatyki, komputerów i sieci łączności. 
O korzyściach, jakie można uzyskać stosując procesory mowy w wymienio- 
nych systemach, będzie mowa w treści książki. 

Aby jednak prowadzić prace rozwojowe, opracowywać nowe koncepcje 
i prototypy — trzeba najpierw zgromadzić podstawową wiedzę i poznać 
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już opracowane systemy. Książka ta ma za zadanie takiej podstawowej 
wiedzy dostarczyć. Naturalnie nie o wszystkich aspektach sygnału mowy 
będzie w niej mowa, nie wszystkie nowe koncepcje badawcze uda się opisać, 
nie wszystkie kierunki rozwoju aparatury znajdą w niej miejsce. Wiedza na 
temat sygnału mowy i jego przetwarzania jest bowiem dziś ogromna, a jesz- 
cze większa jest literatura poświęcona temu tematowi. Autor wyraża na- 
dzieję, że udało mu się zawrzeć w książce najważniejsze wyniki i najbardziej 
inspirujące fakty, a poszerzenie wiadomości szczegółowych może nastąpić 
na podstawie wykazanej na końcu książki literatury oraz nowych artykułów 
i monografii. 

Książka składa się z sześciu w dużym stopniu niezależnych rozdziałów. 
Dwa pierwsze poświęcono opisom naturalnych, biologicznych procesów 
artykulacji i percepcji mowy. Wydaje się, że przez ten opis najbardziej 
płynnie i logicznie można wskazać na te własności sygnału mowy, które 
można uważać za najważniejsze w systemach technicznych, ponieważ czło- 
wiek starannie kształtuje je w procesie artykulacji i rejestruje przy percepcji. 
Centralnym rozdziałem książki jest rozdział 4, w którym opisano metody 
stosowane w technice analogowej i cyfrowej do analizy, syntezy i rozpozna- 
wania mowy. Dwa rozdziały kończące książkę wskazują na wybrane za- 
gadnienia szczegółowe, związane z problematyką sygnału mowy w tele- 
komunikacji i w automatyce. Jak się zresztą okazuje, co podkreślono w treś- 
ci książki, techniki używane przy przekazywaniu sygnału mowy w nowo- 
czesnych systemach komunikacyjnych używanych pomiędzy ludźmi są 
w generalnych zarysach podobne do systemów komunikacji pomiędzy czło- 
wiekiem a urządzeniem technicznym w informatyce lub w systemach auto- 
matyki i robotyki. W istocie bowiem sygnał mowy w nowoczesnej telekomu- 
nikacji może podlegać tak daleko idącym przekształceniom w urządzeniach 
nadawczych i odbiorczych, że w istocie można mówić o systemach typu 
człowiek — maszyna -—— maszyna — człowiek, a nie o prostym schemacie 
komunikacji człowiek — człowiek. Teza ta będzie w treści szóstego roz- 
działu książki szeroko dyskutowana. 


2.1. 


Wytwarzanie mowy 


Uwagi wstępne 


Metody przetwarzania i analizy sygnału mowy muszą być oparte na znajo- 
mości jego struktury, struktura zaś sygnału w zasadniczy sposób uzależniona 
jest od jego wytwarzania. Do niedawna wytwarzanie sygnału mowy było 
domeną systemów naturalnych, to znaczy narządów artykulacyjnych czło- 
wieka. Obecnie oprócz naturalnych źródeł sygnału mowy rozważać trzeba 
także jego wytwarzanie przez systemy techniczne: syntezatory mowy i gene- 
ratory sygnałów mowopodobnych. Często sztuczne systemy generujące 
sygnały mowopodobne naśladują naturalny proces artykulacji, zachodzący 
w trakcie głosowym człowieka. Bywa jednak również często tak, że oszczęd- 
niej można uzyskać w systemie technicznym potrzebny sygnał z wykorzys- 
taniem technik opierających się na odtwarzaniu przebiegów czasowych wy- 
branych z naturalnego sygnału mowy i zarejestrowanych — często w spo- 
sób bardzo wymyślny — w pamięci systemu generującego. 

Można więc łącznie wskazać na trzy źródła rozważanego dalej sygnału 
(rys. 2-1): 

-— trakt głosowy człowieka, dokonujący artykulacji mowy; 

-—— systemy techniczne o prostej strukturze, dokonujące odtwarzania 
mowy; 
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2-1. Metody 


— syntezatory mowy, dokonujące generacji mowy na drodze modelo- 
wania procesu artykulacji. 

Wzorcem sygnału o cechach stanowiących punkt wyjścia we wszystkich 
procesach analizy lub sztucznego wytwarzania mowy jest sygnał powstający 
w wyniku naturalnej artykulacji. Niezbędne jest więc poznanie, dogłębne 
zbadanie i wszechstronne opisanie traktu głosowego człowieka i zachodzą- 


Wytwarzanie mowy 


Odtwarzanie Generacja 


Artykulacja 


wytwarzania mowy mowa naturalna mowa rekonstruowana mowa syntezowana 


2.2. 


cych w nim procesów, aby przy sztucznej syntezie w sposób świadomy i ce- 
lowy nawiązywać do tych wiadomości, a w procesie analizy poszukiwać 
skutków poszczególnych operacji towarzyszących naturalnemu wytwarzaniu 
sygnału mowy. Opis, który jest potrzebny i który będzie omówiony w tym 
rozdziale, nie będzie takim opisem struktury i czynności traktu głosowego 
człowieka, jakiego używają anatomowie, fizjolodzy lub lekarze foniatrzy, 
gdyż inne są cele, dla których będzie on w tej książce wykorzystywany. 
W wykazie literatury znajdującym się na końcu książki podano pozycje, 
w których Czytelnik może znałeźć zarówno anatomiczny opis narządów 
wchodzących w skład traktu głosowego, jak i biologiczny opis ich prawidło- 
wego funkcjonowania oraz typowych patologii. Prezentowany materiał 
natomiast będzie zawierać próbę opisu struktury i funkcji systemu artyku- 
lacji w kategoriach najbliższych Czytelnikom książki, to znaczy w ujęciu 
matematycznym. Można zatem przyjąć, że w istocie będzie prezentowany 
pewien model systemu głosotwórczego, uproszczony w stosunku do rzeczy- 
wistych zjawisk, lecz eksponujący te struktury i procesy, które decydują 
o kształcie rozważanego sygnału. Warto ponadto dodać, że jest to model 
wybrany spośród wielu możliwych, wyselekcjonowany z punktu widzenia 
maksymalnej zwartości i czytelności opisu, a nie w oparciu o kryterium 
najdokładniejszego osiągalnego odwzorowania, gdyż taki najdokładniejszy, 
najwierniejszy, najbardziej rozbudowany modeł jest wciąż jeszcze przedmio- 
tem sporów naukowych i badań. 


Struktura i czynności traktu głosowego 


Ogólna struktura traktu głosowego jest przedstawiona schematycznie na 
rysunku 2-2. W jego skład wchodzą płuca, dostarczające powietrza do 
procesu artykulacji, oskrzeła i tchawica prowadzące strumień 
powietrza do krtani, w której drgające struny głosowe są 
źródłem dźwięku dla dźwięcznych fragmentów mowy. Dźwięk ten jest 
następnie modulowany we wnękach rezonansowych tworzonych przez 
język, podniebienie, zęby i wargi. Przy formowaniu tych 
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wnęk istotną rolę odgrywają ruchy żuchwy i policzków. W przy- 
padku głosek nosowych zamknięta jama ustna pełni rolę bocznika akustycz- 
nego, fala dźwiękowa zaś emitowana jest — dzięki odpowiedniemu usta- 
wieniu języczka podniebienia miękkiego — przez jamę nosową 
i nozdrza. 


ód nosowa 
; „„Podniebienie 
„|. miękkie 


_„—Podniebienie 
twarde 


» Noma ustna 
z 


5. Dama gardłowa 


„ oKrtań 
*Fchaw:ca 
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|| = Płuca 
2-2. Uproszczony 
schemat traktu 
głosowego (w przekroju) 
tą 
A 

z £ (F) 

= 

a 

58 
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o 
2-3, Widmo tonu LJ 
krtaniowego. Malejąca 
amplituda w zakresie 
wyższych częstotliwości | 
wymaga na ogół o | „|. -|. | LZ 
korekty (,„preemfazy”) [sj 040 0.80 1.20 1.60 2.90 
przy analizie sygnału Częstotliwość |kHzl 


Kształtujące dźwięk rezonanse powstają zarówno w wymienionych wnękach, 
głównie w jamie ustnej, ale także (chociaż ma to mały wpływ na postać 
mowy) w klatce piersiowej, w tchawicy i w krtani (szczególnie 
w tzw. kieszonce Morgagniego pomiędzy strunami głosowymi rzeczywistymi 
a strunami głosowymi rzekomymi). Wszystkie wskazane rezonatory formują 
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widmo sygnału krtaniowego, powstającego podczas przetłaczania powietrza 
między strunami głosowymi. Przepływ powietrza, pobudzając do drgań 
struny głosowe, powoduje powstanie dźwięku nazywanego tonem pod- 
stawowym lub krtaniowym. Ton podstawowy odznacza się 


[aj 
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Do 0:0 060 120 166 290 
Częstotliwość !«Hz l 


b 
MIE) 
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bogatym widmem, w którym wyższe harmoniczne są wprawdzie tłumione 
z nachyleniem około 12 dB/oktawę, ale mimo to wyraźnie widoczne są 
nawet harmoniczne o częstotliwości trzydziestokrotnie wyższej od często- 
tliwości podstawowej (rys. 2-3). Wynikowe widmo określonej głoski dźwię- 
cznej powstaje jako nałożenie charakterystyki traktu głosowego (rys. 2-4), 
w której poszczególne rezonanse zaznaczone są w postaci maksimów 
charakterystyki częstotliwościowej, na widmo tonu krtaniowego, w rezulta- 
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cie powstaje widmo o kształcie zależnym od konfiguracji narządów mowy 
w chwili artykulacji danej głoski, odmienne dla każdej głoski i umożliwia- 
jące jej identyfikację. Na rys. 2-5 pokazano przykładowo widma samogłosek 
języka polskiego. i 

Ton krtaniowy zmienia swą częstotliwość, co jest podstawowym czynnikiem 
kształtującym intonację wypowiedzi i formuje melodykę głosu — zwłaszcza 
w śpiewie. Przybliżony zakres tych zmian jest zależny od płci (głosy ko- 
biece mają z reguły dwukrotnie większą częstotliwość tonu krtaniowego 
niż głosy męskie), wieku (głosy dziecięce są wyższe niż głosy osób doros- 
łych) i od cech osobniczych (częstotliwość tonu krtaniowego i jej modulacja 
jest jedną z najważniejszych cech branych pod uwagę przy identyfikacji 
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osoby mówiącej). Przykładowo można podać zakresy częstotliwości tonu 


podstawowego dla głosów śpiewaczych: 
— bas 80--320 Hz, 


—- baryton 100--400 Hz, 

— tenor 120-480 Hz, 

— alt 160--640 Hz, 

— mezzosopran 200--800 Hz, 

— sopran 240--960 Hz. 

Są to oczywiście dane uśrednione, indywidualne zakresy głosów śpiewaków 
mogą nawet dość istotnie odbiegać od podanych granic. 

Drgania strun głosowych „bętłące źródłem omawianego tonu krtaniowego, są 
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niowego 


Generator tonu 


Generator szumu 


drganiami biernymi. Oznacza to, że powietrze przetłaczane przez szparę 
głośni, czyli szczelinę między fałdami błony śluzowej, nazywanymi fałdami 
lub (częściej i mniej dokładnie) strunami głosowymi, wprawia je w drgania 
na skutek dynamicznego oddziaływania strumienia powietrza i elastycznych 
fałdów. Odbywa się to bez dodatkowego angażowania mięśni i bez udziału 
systemu nerwowego. Drgania strun głosowych nie są więc ruchami tego 
samego rodzaju, jak ruchy warg czy języka; o ich przebiegu bowiem decy- 
dują siły aerodynamiczne. System nerwowy ma natomiast możliwość wpły- 
wania na parametry układu dynamicznego, w którym drgania zachodzą. 
Mięśnie i więzadła (opisane dalej bardziej szczegółowo) wchodzące w skład 
samych strun głosowych, a także ustawiające ruchome sprężyste rusztowanie 
krtani mięśnie powierzchowne i mięśnie głębokie krtani pozwalają jednak 
precyzyjnie „stroić” ten drgający układ, zmieniając dowolnie rozwarcie 
i długość szpary głośni oraz napięcie i grubość (masę) strun głosowych. 
W ten sposób bierny z fizycznego punktu widzenia proces generacji drgań 
głosowych w krtani staje się aktywnie sterowanym i precyzyjnie kontrolo- 
wanym procesem formowania dźwięków, a intonacja i modulacja głosu, 
zależna od pracy tych mięśni, jest głównym parametrem pozwalającym 
na identyfikację osoby mówiącej — zarówno przy kontaktach między- 
ludzkich, jak i w automatycznych systemach rozpoznających. 

Ruchy języka, żuchwy. warg, podńiebienia i (w mniejszym stopniu) gardła, 
formujące wspomniane rezonatory i kształtujące definitywny obraz wid- 
ma sygnału mowy zachodzą w sposób precyzyjnie sterowany przez od- 
powiednie elementy systemu nerwowego i są w całości ruchami czynnymi, 
niekiedy bardzo szybkimi, a niekiedy powolnymi, z płynnym przechodzeniem 
od stanu do stanu i z doskonałą koordynacją pracy wszystkich zaangażo- 


krta = 


SV— Z 2 


Transmtancja modułu - impedancja emisji — 
jąca (rezonator) mowy 


za 


2-6. Schemat zastępczy traktu głosowego 

W procesie artykulacji włączane są i wyłączane generatory tonu krtanjowego i szumu (na przemian lub 
obydwa łącznie), modułowane są charakterystyki generatorów, zmieniany jest kształt toru głosowego, 
co zmienia transmitancję modulującą sygnał i położenie rezonansów (por. rys. 2-4) a także zmieniana 
jest impedancja promieniowania ust. Z zewnątrz widoczny jest głównie ten ostatni składnik, to znaczy 
modulujące jmpedancję ruchy warg, tymczasem dla formowania sygnału istotniejsze znaczenie mają 


pozostałe ruchy 


wanych mięśni. W schemacie zastępczym traktu głosowego (rys. 2-6) ta 
część narządów mowy pełni dwojakiego rodzaju funkcje: głównie jest bier- 
nym układem filtrów o zmiennych parametrach, formującym transmitancję 
modulującą sygnał ze źródła dźwięku — na przykład w omawianym wyżej 
przypadku głosek dźwięcznych tonu podstawowego drgających strun głoso- 
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2.3. 


wych, jednak obok tej funkcji może być rozpatrywana także jako źródło 
dźwięku dla głosek szumowych. W tym ostatnim przypadku zamiast (w głos- 
kach bezdźwięcznych, np. s) lub obok tonu krtaniowego (w głoskach 
dźwięcznych, np. z), źródłem podlegającego formowaniu sygnału dźwięko- 
wego jest szum turbulentnego przepływu powietrza poprzez przewężenia 
wytworzone przez wymienione narządy. 

Ostatnim elementem traktu głosowego jest otwór ust lub/i nozdrza, stano- 
wiący obciążenie omówionego wyżej schematu zastępczego traktu głoso- 
wego. Impedancja tego obciążenia jest regulowana przez ruchy artykula- 
cyjne — głównie otwieranie i zamykanie warg, co wpływa dość istotnie na 
obraz emitowanego sygnału dźwiękowego. Podsumowując, należy stwier- 
dzić, że: 

1. Świadoma artykulacja sygnału mowy polega głównie na kształtowaniu 
parametrów rezonatora, w którym formowany jest sygnał pochodzący ze 
źródła dźwięcznego lub szumowego. 

2. Formowanie, o którym mowa, dotyczy głównie charakterystyk amplitu- 
dowo-częstotliwościowych sygnału, gdyż stosunki fazowe kształtowane są 
między innymi przez drgające biernie struny głosowe, których sterowanie 
dokonywane jest jedynie przez zmianę parametrów (naprężenia, sztywności, 
stopnia rozwarcia szpary głośni itp.) lub przez czysto przypadkowy proces 
generacji szumu w przewężeniach. 

3. Model zastępczy systemu artykulacji mowy może być stosunkowo prosty, 
gdyż składa się jedynie z generatora tonu lub/i szumu o regulowanych para- 
metrach, układu rezonansowego o swobodnie kształtowanej charakterystyce 
i zmiennej impedancji promieniowania ust lub/i nosa. 

4. Artykulacja głosek nosowych polega na propagacji fali dźwiękowej przez 
kanał nosowy przy bocznikującym wpływie jamy ustnej o zamkniętym wy- 
locie i aktywnie formowanym kształcie. 

5. W procesie artykulacji uczestniczą oczywiście również płuca, tchawica, 
drzewo oskrzelowe i część krtani poniżej strun głosowych, ponieważ jednak 
nie biorą one udziału bezpośrednio w kształtowaniu wytwarzanego sygnału, 
przeto w dalszych rozważaniach ich wpływ na brzmienie dźwięku będzie 
pomijany i ich rola będzie sprowadzana do funkcji źródła energii. 


Wybrane szczegóły budowy traktu głosowego 
i problemy jego sterowania 


Omówiona wyżej generalna koncepcja struktury i funkcji traktu głosowego 
pomijała wiele interesujących szczegółów anatomicznych i fizjologicznych, 
których poznanie może lepiej zorientować Czytelnika w stopniu złożoności 
systemu głosotwórczego człowieka i uzmysłowić przybliżony charakter 
opisanych dalej prób przytoczenia matematycznego modelu tego systemu 
i przebiegających w nim procesów, a także stopień uproszczenia i zubożenia 
tego procesu w technicznych syntezatorach mowy. 
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Mało kto zdaje sobie sprawę, jak wiele mięśni zaangażowanych jest bez- 
pośrednio w proces artykulacji mowy. Pomijając mięśnie oddechowe, któ. 
rych udział w procesie wytwarzania dźwięków jest konieczny, lecz których 
funkcja biologiczna jest zasadniczo inna, naliczyć można aż 43 mięśnie 
(w tym znaczna część jest parzysta) bezpośrednio biorące udział w procesie 
wytwarzania mowy. Są to kolejno: 

— mięśnie krtani: pierścienno-tarczowy, pierścienno-nalewkowy 
tylny, pierścienno-nalewkowy boczny, tarczowo-nałewkowy, głosowy, przed- 
sionkowy, nalewkowy poprzeczny ; 

— mięśnie gardła: rylcowo-gardłowy, podniebienno-gardłowy, 
zwieracze gardła — górny, środkowy i dolny; 

— mięśnie podniebienia: dźwigacz podniebienia miękkiego, 
napinacz podniebienia miękkiego, podniebienno-językowy, języczka; 

— mięśnie języka: bródkowo-językowy, gnykowo-językowy, ryl- 
cowo-językowy, podłużny górny, poprzeczny języka, pionowy języka; 

— mięśnie poruszające żuchwę: dwubrzuścowy, żuchwo- 
wo-gnykowy, bródkowo-gnykowy, skroniowy, żwacz, skrzydłowy boczny, 
skrzydłowy przyśrodkowy; 

— mięśnie poruszające wargi: okrężny ust, przysieczny 
górny i dolny, jarzmowy większy, miechowy, dźwigacz wargi górnej, 
jarzmowy mniejszy, dźwigacz kąta ust, obniżacz kąta ust, obniżacz wargi 
dolnej, bródkowy, policzkowy; 

— mięśnie poruszające nozdrza: nosowy poprzeczny i no- 
sowy skrzydłowy. 

W zestawionym wykazie pominięto mięśnie zaangażowane w proces artyku- 
lacji mowy pośrednio (nieodzowne jednak przy jego realizacji), a więc obok 
wspomnianych już mięśni oddechowych także mięśnie poruszające kość 
gnykową, stanowiącą nieodzowny punkt zaczepienia dla krtani i mięśni 
poruszających żuchwę. 

Dokładna dyskusja działania wszystkich wymienionych mięśni jest zbyt 
obszerna, aby ją tu przytaczać. Warto jedynie — zgodnie z wcześniejszą 
zapowiedzią — zwrócić uwagę na rolę mięśni krtani w procesie formowania 
tonu krtaniowego. 

Struny głosowe rozpięte są między wewnętrzną powierzchnią kąta chrząstki 
tarczowatej a wyrostkami głosowymi chrząstek nalewkowatych (rys. 2-7). 
Działanie mięśni krtani prowadzi do ruchów zarówno chrząstki tarczowatej 
jak i przemieszcza, obraca, zbliża i oddala chrząstki nalewkowate. W rezul- 
tacie szpara głośni jest powiększana i zwężana, a struny głosowe są napinane 
lub zwalniane, przy czym obecność w samych strunach głosowych dodatko- 
wego mięśnia głosowego powoduje, że mogą one w sposób regulowany 
zwiększać lub zmniejszać swoją grubość i sztywność. 

Skrótowo powyższe procesy opisać można w następujący sposób. Mięsień 
pierścienno-tarczowy kurcząc się napina cały mechanizm strun głosowych, 
gdyż oddala chrząstkę tarczowatą od łuku chrząstki pierścieniowatej, na 
której zamocowane są chrząstki nalewkowate stanowiące punkt zaczepienia 
strun głosowych (rys. 2-8a). Powoduje to zwiększenie częstotliwości genero- 
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2-7. Uproszczony 
schemat przekroju 
krtani, wskazujący na 
lokalizację strun 
głosowych i wzajemne 
stosunki pozostałych 
elementów krtani. 
Zarówno na 
pionowym przekroju 
z lewej strony rysunku 
(przekrój 

w płaszczyźnie 
symetrii ciała, widok 
od prawej strony), jak 
i na przekroju 
poziomym z lewej 
strony (przekrój 
poziomą płaszczyzną, 
widok z góry) 
uwidoczniono fakt, że 
struny głosowe 
rozpięte są pomiędzy 
ruchomo osadzonymi 
chrząstkami, Zmiana 
położenia chrząstek 
napina i zmienia 
położenie strun 
głosowych, modulując 
generowany dźwięk 


„Kość gnykowa 


„Chrząstka nalewkowota *- 


„ Chrząstka torczowata 


Struny głasowe — 
Chrząstka  pierśrieruowata 


„ Tębawiea 


2-8, Procesy zachodzące w trakcie głosowym podczas artykulacji. Działanie mięśni: 

owatego tylnego posz 10 szparę głośni, c — pierścienno- 

— w wyniku papięcia mięśnia głosowego (co zaznaczono na rysunku 
jywne; © — nalewkowatego poprzecznego;  — przedsionkowego 


a — pierścienno-tarczowego, b — pierścienno-nale 
-nalewkowatych bocznych zwierających szparę gł 
symbolem $)) struny głosowe stają się cieńsze i bard 
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wanego tonu. Mięsień pierścienno-nalewkowy tylny powoduje obracanie 
chrząstek nalewkowatych i poszerzanie szpary głośni (rys. 2-8b), zaś mięsień 
pierścienno-nalewkowy boczny powoduje obrót chrząstek nalewkowatych 
w przeciwną stronę i zwiera szparę głośni (rys. 2-8c). Mięsień tarczowo- 
-nalewkowy zwiera szparę głośni obracając chrząstki nalewkowate do wew- 
nątrz. Część jego włókien przebiegająca bezpośrednio w strunach głoso- 
wych, nazywana z tego powodu mięśniem głosowym, napina fałd głoso- 
wy po nadaniu wargom głosowym odpowiedniej długości przez mięsień 
pierścienno-tarczowy, kurcząc się skurczem izometrycznym (bez zmiany 
długości) i wpływając na sztywność i masę drgających elementów (rys. 2-80). 
Na koniec mięsień nalewkowy poprzeczny zbliża do siebie obydwie chrzą- 
stki nalewkowate zamykając szparę głośni (rys. 2-8e) a mięsień przedsion- 
kowy zwęża szparę przedsionka, przez co głos staje się przytłumiony (rys. 
2-8f). Łatwo zauważyć, że na geometrię i parametry dynamiczne głośni 
mają wpływ wszystkie wskazane mięśnie, a ich współdziałanie i precyzyjne 
sterowanie pozwala na sterowanie procesem generacji tonu krtaniowego. 
Często spotykany pogląd, że modulacja głosu zachodzi pod wpływem 
działania mięśnia pierścienno-tarczowego, pełniącego funkcję napinacza 
strun głosowych, musi być w świetle przytoczonej dyskusji oceniony jako 
bardzo uproszczony. 

Naturalnie w podobny sposób można omawiać działanie dalszych mięśni 
zaangażowanych w proces wytwarzania mowy, utwierdzając się w przeko- 
naniu, że są to procesy nadzwyczaj złożone (szczególnie dotyczy to ruchów 
języka i warg), wymagające doskonałej koordynacji i dokładnego sterowa- 
nia. Istotnie, dyskusja dotycząca efektorów mięśniowych realizujących pro- 
ces artykulacji, omija najistotniejszy i najciekawszy problem — sterowania 
tego procesu ze strony systemu nerwowego. Zagadnieniem tym zajmiemy się 
teraz nieco dokładniej. 

System sterowania procesem wytwarzania mowy jest rozmieszczony we 
wszystkich tradycyjnie wyróżnianych częściach systemu nerwowego, a więc 
włącza określone nerwy należące do obwodowego systemu nerwowego, 
wykorzystuje liczne ośrodki w centralnym systemie nerwowym, na różnych 
jego piętrach z obszernym fragmentem kory mózgowej włącznie, wreszcie 
ma liczne wielokierunkowe powiązania z systemem autonomicznym — 
sympatycznym i parasympatycznym (rys. 2-9). Sterowanie procesem wy- 
twarzania mowy jest zadaniem złożonym i opiera się silnie na działaniu 
licznych pętli sprzężeń zwrotnych, poczynając od lokalnych układów regu- 
lacji stabilizujących pracę pojedynczych mięśni lub kontrolujących położenie 
poszczególnych stawów (rys. 2-10), a kończąc na głobalnym sprzężeniu 
zwrotnym (rys. 2-11), wykorzystującym analizator słuchowy i sterującym 
precyzyjnie jakość wytwarzanych dźwięków na drodze bezpośredniej oceny 
ostatecznego efektu procesu artykulacji. Jest przy tym oczywiste, że to ostat- 
nie sprzężenie zwrotne odgrywa pierwszoplanową rolę w procesie formo- 
wania mowy; ogólnie znane trudności z mową ludzi głuchych oraz nowsze 
doświadczenia, związane z zaburzeniami mowy ludzi znajdujących się 
w warunkach utrudniających odsłuchową kontrolę własnego głosu (np. 
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2-11. Struktura 
globalnego sprzężenia 
zwrotnego, 
odgrywającego 
zasadniczą rolę przy 
artykulacji sygnału 
mowy 


problem mowy nurka na dużych głębokościach) dostarczają w tym zakresie 
aż nadto przekonywających dowodów. Warto przy tym zwrócić uwagę na 
fakt, że dla poprawnego funkcjonowania rozważanego sprzężenia zwrotnego 
równie ważne jest połączenie akustyczne między narządem głosu a uchem, 
jak i połączenie nerwowe między analizatorem słuchowym a ośrodkiem 
sterowania procesem artykulacji mowy. Połączenie takie w mózgu czło- 
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wieka istnieje, natomiast anatomowie nie mogą odnaleźć jego odpowiednika 
w mózgu innych zwierząt, w tym także u najbliższych nam naczelnych 
(małp człekokształtnych). Z tego powodu — prawdopodobnie — zwierzęta 
wykształciły rozmaite systemy komunikacyjne: „„języki”” ruchowe, dotyko- 
we, węchowe — ale nie głosowe. Biorąc pod uwagę niewątpliwy wpływ 
języka na rozwój cywilizacji ludzkiej, możemy nieco fantazjując powiedzieć, 
że właśnie ten pęczek włókien nerwowych stworzył homo sapiens... 
Porzucając jednak hipotezy na rzecz sprawdzonych faktów dokonamy teraz 
przeglądu ośrodków nerwowych sterujących narządami głosotwórczymi 
i podejmiemy próbę konstrukcji schematu systemu sterowania procesu 
artykulacji mowy. Zaczynając od dołu (w sensie hierarchii systemu nerwo- 
wego) wymienimy nerwy odpowiedzialne za sterowanie wyszczególnionych 
wyżej mięśni, zaangażowanych w wytwarzanie sygnału mowy. Konsekwent- 
nie pominiemy przy tym ośrodki nerwowe stwarzające warunki do prawidło- 
wego funkcjonowania narządów mowy, lecz nie sterujące tym funkcjono- 
waniem w sposób bezpośredni. Chodzi tu głównie o system sterujący pro- 
cesem oddychania i dostarczający powietrza o wymaganym ciśnieniu do 
generacji potrzebnych do artykulacji dźwięków (szumu i tonu krtaniowego). 
W podobny sposób nieodzowne, ale pomijane w rozważaniach są ośrodki 
układu sympatycznego i parasympatycznego, regulujące wydzielanie śliny, 
śluzu i płynu surowiczego na powierzchniach błon wyściełających narządy 
mowy. Nieprawidłowe funkcjonowanie tych ośrodków może prowadzić do 
nadmiernego przesuszenia lub — przeciwnie, wzmożonej sekrecji, co bardzo 
utrudnia, a w skrajnych przypadkach może całkowicie uniemożliwić artyku- 
lację mowy. Trzeba przy tym pamiętać, że wzmożony wysiłek oddechowy 
i przepływ powietrza podczas mówienia prowadzą do dodatkowej (w sto- 
sunku do normalnej aktywności człowieka) utraty płynów z powierzchni 
narządów artykulacji mowy, sięgającej 250 ml/godzinę, która musi być 
kompensowana przez odpowiednie sterowanie procesów wydzielniczych. 
Analizując sterowanie samych mięśni uczestniczących w procesie wytwarza- 
nia mowy możemy kolejno stwierdzić, że: 

— mięśnie krtani są unerwione (sterowane) przez nerw krtaniowy 
dolny, a mięsień pierścienno-tarczowy przez nerw krtaniowy górny 
(gałąź zewnętrzną); oba od nerwu błędnego; 

— mięśnie gardła są unerwione przez nerw językowo-gardłowy 
i nerw błędny, przy czym włókna tych nerwów tworzą splot 
gardłowy, wymieniany także przy omawianiu dalszych mięśni; 

— mięśnie podniebienia są unerwione przez gałązki splotu gardło- 
wego, a ponadto mięsień dźwigacz podniebienia miękkiego przez nerw 
twarzowy; 

— mięśnie jężyka są unerwione przez nerw podjęzykowy: 

— mięśnie poruszające żuchwę unerwione są przez nerw twarzowy, 
żuchwowo-gnykowy, podjęzykowy, trójdzielny (trzecia 
gałąź, tzw. nerw żuchwowy), a także — w pewnym zakresie — 
przez gałązki odchodzące od tzw. pętli szyjnej, tworzonej przez 
gałęzie brzuszne nerwów rdzeniowych C;, — Cz; 
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—- mięśnie poruszające wargi i nozdrza są unerwiane przez nerw twa- 
rzowy. 

Wymienione struktury są najniższym piętrem systemu nerwowego i wchodzą 
oczywiście w skład obwodowego systemu nerwowego. Kolejne piętro sta- 
nowią jądra, gromadzące szarą substancję (ciała komórek nerwowych) 
sterujące pracą wymienionych nerwów (rys. 2-12). Jądra te mieszczą się 


Jądro ruchowe 
nerwu trójdzielnego 


„-.-"Jądro nerwu twarzowego 


2.12. Lokalizacja 

w pniu mózgu jąder 
nerwów czaszkowych 
odgrywających 
pierwszoplanową rolę 
w sterowaniu procesu 
artykulacji mowy 


Jądro dwuznaczne 


Jądro nerwu podjęzykowego 


głównie w pniu mózgu (w dnie komory czwartej — jądro nerwu pod- 
językowego) oraz w bocznej części rdzenia przedłużonego 
(jądro dwuznaczne nerwu językowo-gardłowego i błędnego). W moście 
(w części grzbietowej dolnego odcinka) mieszczą się jądra ruchowe nerwu 
twarzowego oraz (w bocznej części środkowego odcinka) jądra ruchowe 
nerwu trójdzielnego. Nerwy rdzeniowe C;—C; mają odpowiadające sobie 
skupiska substancji szarej w rogach przednich szyjnych odcinków rdzenia 
kręgowego. 

Wymienione jądra stanowią bezpośrednie źródło sygnałów sterujących pracą 
odpowiednich mięśni i pełnią w stosunku do tych mięśni rolę regulatorów, 
zapewniających poprawne funkcjonowanie wymienionych mięśni niezależnie 
od ewentualnego wpływu zakłóceń pochodzących od zmiennych oporów 
ruchu. Ogólny układ sterowania mięśni można bowiem przedstawić zgodnie 
ze schematem pokazanym na rys. 2-13, na którym komórki bezpośrednio 
wymuszające skurcz odpowiednich mięśni (tak zwane motoneurony alfa) 
znajdują się pod wpływem zarówno bezpośrednich sygnałów sterujących 
z wyższych pięter systemu nerwowego (omawianych niżej), jak i pod wpły- 
wem sygnałów pochodzących z tzw. pętli gamma. W skład pętli gamma 
wchodzą motoneurony gamma wymuszające skurcz włókien intrafuzalnych 
(„wrzecion”) i komórki sygnalizujące stan naprężenia włókna, powstającego 
w przypadku niezgodności długości włókna intrafuzalnego i całego mięśnia. 
Patrząc na ten układ z punktu widzenia technika widzimy tu (rys. 2-14) 
typowy serwomechanizm, w którym pętla gamma pełni rolę zadajnika dłu- 
gości mięśnia, a komórka alfa staje się regulatorem sterującym stanem na- 
pięcia mięśnia koniecznym dla uzyskania potrzebnego skrócenia. 
Motoneurony alfa i gamma (by pozostać przy tym uproszczonym schema- 
cie), znajdujące się w jądrach odpowiednich nerwów, są sterowane przez 
korę mózgową. Połączenia pomiędzy korą a wymienionymi jądrami 
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2-13. Struktura 
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należą do tak zwanej drogi piramidowej, której odgałęzienie 


docierające do rozważanych jąder jest nazywane drogą korowo- 
-jądrową. Drogi korowo-jądrowe bywają zarówno skrzyżowane, jak 
i nie, czyli dla większości:jąder nerwów czaszkowych obie półkule mózgowe 
sterują równocześnie mięśniami po obu stronach ciała. Jest to struktura 
odmienna od występującej dla wszystkich mięśni szkieletowych, dla których 
istnieje reguła połączeń skrzyżowanych, czyli prawa półkula steruje pracą 
mięśni lewej części ciała i odwrotnie. Skrzyżowane są w drodze korowo- 
„jądrowej jedynie nerwy prowadzące sygnały do nerwu podjęzykowego 
i do nerwu twarzowego, co objawia się niekiedy patologicznymi zniekształce- 
niami mimiki twarzy i oczywiście rozważanej tu artykulacji mowy. 


Bezpośrednie wymuszenie z mózgu 


Motoneuran Motoneuron 
gamma alta 


Skurcz mięśnia 


Wrzeciono EZ) Mięsień 


" Pętla gamma” 
2-14. Struktura biologicznego regulatora z rys. 2-13 widziana oczami inżyniera. 
Taka prezentacja połączenia elementów nerwowych sterujących pracą mięśnia podkreśla ich 
podobieństwo do technicznych serwomechanizmów 


Najważniejszą rolę w omawianym hierarchicznym systemie sterowania 
procesem wytwarzania mowy odgrywają najwyższe piętra, zlokalizowane 
w korze mózgowej. To właśnie ich działalność decyduje o możliwości ko- 
munikacji głosowej i z tego rejonu wywodzą się impulsy, które sterują pracą 
jąder nerwów czaszkowych, a za ich pośrednictwem — wszystkimi mięśnia- 
mi. Obserwacje kliniczne, w których obserwowane u pacjentów ubytki 
poszczególnych funkcji (w rozważanym przypadku — zubożenie lub całko- 
wity zanik artykulacji mowy) były wiązane z rozpoznawanymi uszkodzenia- 
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mi określonych rejonów kory mózgowej, pozwoliły na stosunkowo pewną 
lokalizację obszarów w korze mózgowej. W szczególności z generowaniem 
i przetwarzaniem informacji językowej wiążą się cztery obszary kory mózgo- 
wej (rys. 2-15): ośrodek ruchowy mowy, ośrodek słuchowy mowy, ośrodek 
dla ruchów ręki (pisanie) oraz ośrodek wzrokowy mowy (ośrodek czyta- 
nia). Ośrodki te są położone w rejonach, o których od dawna wiadomo, że 
powiązane są z określonymi funkcjami mózgu. Ośrodek ruchowy mowy 
i graniczący z nim ośrodek ruchów pisarskich ręki są położone w zwoju 
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przedcentralnym (sąsiadującym z bruzdą Rolanda), który w całości za- 
wiera korowe ośrodki sterowania ruchem. Ośrodek słuchowy mowy, uloko- 
wany w płacie skroniowym, jest położony w rejonie projekcyjnym wrażeń 
słuchowych, a ośrodek wzrokowy mowy jest przesunięty w kierunku pól 
potylicznych, pełniących funkcję korowej reprezentacji wzroku. Wymienio- 
ne ośrodki sąsiadują ponadto z polami kojarzeniowymi, to znaczy z obsza- 
rami kory mózgowej, którym przypisuje się dominującą rolę w procesach 
myślenia i kojarzenia. 

Na szczególną uwagę zasługuje potyliczno-skroniowo-ciemieniowa okolica 
kojarzeniowa, uważana za nadrzędny ośrodek mowy, któremu trzy uprzed- 
nio wymienione mają być podporządkowane. Należy jednak podkreślić, 
przytaczając i omawiając dane biołogiczne na temat lokalizacji ośrodków 
w korze mózgowej, że wszelkie tego typu informacje są przybliżone i nie 
mają tak pewnego charakteru, jak uprzednio dyskutowane informacje na te- 
mat mięśni, nerwów, czy nawet jąder w pniu mózgu. Kora mózgowa jest zbyt 
złożonym systemem, aby można było zrozumieć i szczegółowo opisać jej 
działanie przy użyciu dostępnych metod badań strukturalnych (morfolo- 
gicznych), czynnościach (fizjologicznych) i obowiązujących koncepcji meto- 
dologicznych. Wystarczy wskazać na fakt, że wymienione ośrodki, tak zde- 
finiowane i zlokalizowane jak to uczyniono wyżej, obejmują około 450 min 
komórek nerwowych, których połączeń, czynności i współdziałania nie- 
podobna dziś prześledzić — zwłaszcza że czynności pojedynczej komórki 
nerwowej wydają się na tyle złożone i zarazem uporządkowane, że wielu 
badaczy utożsamia ten elementarny fragment systemu nerwowego z mikro- 
procesorem. 

Przechodząc do nieco dokładniejszego omówienia strefy ośrodka ruchowe- 
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go mowy (ośrodka Broca), który głównie nas interesuje, należy odnotować 
fakt istnienia w tym obszarze związków między rozmieszczeniem poszcze- 
gólnych mięśni uczestniczących w artykulacji mowy a ich reprezentacją — 
w sensie neuronów inicjujących i sterujących ich pracą —w korze 
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mózgowej. Skrótowo można powiedzieć, że im wyżej znajduje się określony 
mięsień, tym wyżej także zlokalizowane są sterujące go komórki nerwowe. 
Na tym jednak analogia topograficzna się kończy. Ponadto wielkość re- 
prezentacji poszczególnych mięśni w korze mózgowej absolutnie nie od- 
powiada rozmiarom samych mięśni, lecz jest raczej pewną miarą ich biolo- 
gicznej ważności i stopnia szczegółowości sygnałów sterujących, generowa- 
nych dla tych mięśni przez korę mózgową. Szkic rozmieszczenia reprezen- 
tacji poszczególnych części ciała wzdłuż sterującego ruchami zwoju przed- 
centralnego kory mózgowej prezentuje wręcz karykaturalnie zniekształcony 
obraz sylwetki człowieka (rys. 2-16), w którym na uwagę Czytelników za- 
sługują rozmiary obszaru poświęconego artykulacji mowy (zaznaczone na 
rysunku): uderzające, że mięśnie artykulacyjne, stanowiące wagowo naj- 
wyżej 1% masy ciała zajmują blisko 25%, komórek nerwowych, sterujących 
pracą wszystkich mięśni całego ciała. Jest to miara stopnia złożoności 
ruchów wykonywanych przy wytwarzaniu mowy i wyraz znaczenia, jakie 
organizm i mózg człowieka przywiązują do tej funkcji. 
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2.4. 


Model procesu wytwarzania mowy przez człowieka 


Przytaczane wyżej opisy anatomii i czynności narządów głosotwórczych 
człowieka miały charakter zbliżony do formy typowych opisów biologicz- 
nych. Z punktu widzenia inżyniera opis taki jest mało czytelny i mało przy- 
datny, nawet jeśli pozbawi się go nadmiaru szczegółów i przedstawi bez 
odwoływania do hermetycznej łacińskiej terminologii. Aby opis narządów 
i procesów wytwarzających mowę wykorzystywać przy próbach naślado- 
wania tego procesu w technice — na przykład w syntezatorach lub do opty- 
malizacji procesów przetwarzania mowy w telekomunikacji i cybernetyce — 
trzeba opis ten przedstawić w formie zwartej i operatywnej zarazem. Idealną 
formą jest tu model matematyczny, wyróżniający poszczególne systemy 
i procesy w postaci równań i funkcji, pozwalający przez formalne rozważania 
wykryć prawidłowości w funkcjonowaniu rozważanego systemu oraz umożli- 
wiający badanie systemu na drodze symulacji komputerowej. Tworzenie 
modelu i jego formalizacja jest najlepszym sprawdzianem spoistości i kom- 
pletności wiedzy biologicznej na temat rozważanego systemu. 

W systemie wytwarzania mowy modelowaniu muszą podlegać kolejno: 
źródło tonu krtaniowego, tor głosowy — ustny i nosowy oraz impedancje 
promieniowania ust i nosa zamykające odpowiednie tory. Uwzględnianie 
w modelu płuc, oskrzeli i tchawicy, dostarczających powietrza o wymaganym 
ciśnieniu podgłośniowym i regulowanym natężeniu przepływu, a także 
wzbogacających wytwarzany sygnał o dodatkowe rezonanse, nie wydaje się 
niezbędne. Ich wpływ na proces artykulacji wyraża się wartościami o dwa 
rzędy wielkości mniejszymi od wpływu elementów wymienionych na wstępie. 
Tak więc opisany tu model systemu artykulacji ma strukturę jak na rys. 


Sygnał 
mnwy 
2-17. Uproszczony schernat modelu procesu wytwarzania mowy. 

Według tego schematu działa system naturalnej artykulacji, jest on jednak 
również przyjmowany dla sztucznych systemów generacji mowy dla potrzeb 
automatyki lub telekomunikacji 


2-17, będącym odpowiednikiem wcześniej rozważanego schematu z rys. 
2-6. Schemat ten tymczasowo nie uwzględnia procesów szumowych odpo- 
wiadających artykulacji głosek trących i zwartotrących, których wytwarza- 
nie polega na tworzeniu dodatkowych źródeł szumów położonych wewnątrz 
traktu głosowego. W uproszczeniu można przyjąć, tak jak to przedstawiono 
na tys. 2-6, że źródło szumów znajduje się również na wejściu układu o zmien- 
nej konfiguracji i zmiennych parametrach, reprezentującego trakt głosowy. 
Natomiast uwzględnienie faktu, że źródło szumów znajduje się dalej wzdłuż 
osi traktu głosowego, polega na dość prostym uzupełnieniu transmitancji 
układu o zmiennych parametrach, formującego wynikowe widmo sygnału. 
Zagadnienie to będzie dalej przedstawione bardziej szczegółowo. 

Model systemu głosowego człowieka był przedmiotem wielu prac nauko- 
wych. Istnieją krytyczno-przeglądowe zestawienia, w których znaleźć także 
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można ważniejsze pozycje źródłowe. Na szczególną uwagę zasługują wśród 
nich klasyczne prace Fanta, Flanagana, Ishizaki oraz Kacprowskiego. 
Naturalnie różni autorzy w odmienny sposób definiują swoje modele, 
rozmaicie opisują ich elementy, w wyniku czego uzyskują bardziej lub maniej 
dokładne odwzorowanie rzeczywistych procesów mających miejsce w trak- 
cie głosowym człowieka podczas artykulacji mowy. Podstawowa trudność, 
jaka przy tym występuje, polega na wyborze racjonalnie prostego modelu, 
którego struktura zawiera możliwie jak najmniej elementów i odwołuje się 
do możliwie prostych zależności matematycznych, a który mimo to jest 
jeszcze stosunkowo wierny. Podana niżej propozycja jest jedną z możliwych: 
Czytelnik w miarę potrzeb może ten model jeszcze bardziej uprościć, godząc 
się na mniej wierne odwzorowanie rzeczywistych zjawisk, albo poszukiwać 


— samodzielnie lub opierając się na cytowanej literaturze — dokładniejszego 
modelu, z reguły jednak znacznie bardziej złożonego, niestety. 


Modele traktu głosowego zazwyczaj są budowane w postaci superpozycji 
odcinków rur cylindrycznych o sztywnych ścianach, tak dobranych, aby 
powierzchnia ich przekroju i zmiany średnicy wzdłuż osi symulowanych 
narządów mowy były zgodne — z założoną dokładnością — z rzeczywisty- 
mi wymiarami krtani, gardła, jamy ustnej, warg itd. (rys. 2-18), Oczywiście 


2-18. Uproszczony ) AA 5 
model traktu CEJ 3, fre) lą alla po ć 
głosowego, J 


modulującego sygnał 

mowy w naturalnym 

procesie artykulacji 
taki modeł zawiera z założenia niedokładności, a ich przyczyn upatrywać 
można w przynajmniej trzech istotnych uproszczeniach. Po pierwsze, prze- 
krój rzeczywistych narządów mowy odbiega niemal wszędzie od przekroju 
kołowego, a to ma wpływ na własności rezonansowe odpowiednich frag- 
mentów traktu głosowego — różniące się w tym przypadku od rozważanego 
modelu. Po drugie, rzeczywisty kształt narządów mowy zmienia się płynnie 
i poszczególne przekroje przechodzą płynnie jeden w drugi, bez ostrych 
granic, natomiast w modelu wprowadza się te granice zniekształcając obraz 
zjawisk akustycznych i utrudniając wnioskowanie. Po trzecie, ściany rzeczy- 
wistych narządów mowy są elastyczne, a nie sztywne, jak to przyjęto w mo- 
delu; wymaga to wprowadzenia w modelu dodatkowych elementów strat- 
nych dla uwzględnienia oddziaływania fali akustycznej ze ścianą. W dal- 
szych rozważaniach będziemy więc posługiwali się modelem zbudowanym 
z odcinków rur cylindrycznych o długości / i polu przekroju poprzecznego A 
(rys. 2-19); na wejściu rury przyjmujemy istnienie fali akustycznej o ciśnieniu 
akustycznym p, i prędkości objętościowej V,. Na wyjściu analogiczne war- 
tości oznaczymy p oraz VF. Zgodnie z sugestiami wielu autorów celowe 
jest zastąpienie układu akustycznego, przedstawionego na rys. 2-19 zastęp- 
czym schematem elektrycznym w postaci czwórnika o strukturze podanej 
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na rys. 2-20. Układ taki, wzorowany na pracach Kacprowskiego, pozwala 
na zastąpienie modelu akustycznego, mającego postać ciągu rur o zmiennym 
przekroju, układem łańcuchowo połączonych czwórników, łatwym do 
obliczeń i analizy (rys. 2-21). Jedynym punktem, w którym zachodzi po- 
trzeba szczegółowszego rozważenia struktury i funkcji schematu zastępczego 
jest punkt rozgałęzienia toru ustnego i nosowego; zagadnienie to będzie 
dalej dokładniej zanalizowane. 


2-19. Elementarny fragment modelu 2-20. Czwórnik elektryczny stosowany jaka 
przedstawionego na rys. 2-18. Element ma zgodny analogia elementarnego odcinka modelowanego 
z rzeczywistością przekrój A i długość / — wartości traktu głosowego, przedstawionego na rys. 

te odpowiadają stosownym parametrom mierzonym 2-19. Parametry elektryczne czwórnika mogą 

w wydzielonym fragmencie aproksymowanego być jednoznacznie wyliczone na podstawie 
traktu głosowego. Działanie fragmentu modelu parametrów geometrycznych odcinka ,„rury”” 
można rozważać w kategoriach relacji pomiędzy z rys. 2-19, przebiegi zaś elektryczne na wejściu 
wejściowymi (p, i V,) oraz wyjściowymi (p, Fa) i na wyjściu czwórnika stanowią wierną 
parametrami fali akustycznej analogię parametrów fali akustycznej 


transmitowanej przez symulowany przewód 


Tor rasowy 
Impedancja promienio - 
A wania nożdrzy 
eZ > TRE ra Er CN 

(J I I ; I Impedaric c 

wania ust 
owe (©) ' i f i 
jor gardłowy Tor ustny 


2-21. Ogólna struktura modelu elektrycznego, będącego analogiem układu akustycznego z rys. 2-18 
(zastosowano czwórniki postaci podanej na rys. 2-20). W stosunku do wcześniej omówionych modeli 
traktu głosowego wprowadzono trzy uzupełnienia: uwzględniono rozgałęzienie kanału na tor usiny 

i nosowy, zastosowano generator wymuszenia krtaniowego oraz dodano zamykające oba łańcuchy 
impedancje promieniowania — odpowiednio otworu ust oraz nozdrzy, W ten sposób model tu 
pokazany jest kompletniejszy i bardziej wierny od uprzednio omawianych 


Podstawowym elementem modelu jest układ akustyczny z rys. 2-19, którego 
elektrycznym odpowiednikiem jest czwórnik z rys. 2-20. Ponieważ dane 
antropometryczne dostarczają wystarczających wiadomości, aby określić 
parametry rury z rys. 2-19, to kluczową sprawą jest wyznaczenie zależności 
między wymiarami rury a wartościami parametrów elektrycznych czwórnika. 
Wprowadzając obok zdefiniowanych wyżej wymiarów, długości ? i powierz- 
chni przekroju rury A (wyrażanych odpowiednio w m i m?), obwód otworu 
rury S [m], gęstość powietrza p [kg m”*], prędkość fali dźwiękowej c [ms”*], 
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współczynnik tarcia powietrza a. [Nm"*sj, współczynnik przewodności 
cieplnej powietrza A [m”!s"* K”'), ciepło właściwe powietrza przy stałym 
ciśnieniu c, [kg"! K”!], stałą adiabatyczną %, rezystancję akustyczną ścian 
toru głosowego (na jednostkę powierzchni) r, [kgm”2s"-'], masę ścian 
kanału głosowego na jednostkę powierzchni m, otrzymuje się następujące 
zależności: 

— indukcyjność czwórnika Ł, będąca odpowiednikiem masy akustycznej 
powietrza zawartego w rurze 


L= U [kg m”+] 2.1) 
— pojemność czwórnika C, odpowiadająca podatności akustycznej po- 
wietrza w. rurze 


I 
C= > [kg”' m*s?] (2.2) 
gc 
— szeregowa rezystancja czwórnika R, odpowiadająca rezystancji strat 
wskutek wiskotycznego tarcia powietrza przy ścianach rury 


Sz WOU -2 g-1 
R=GV/ 7 l [kg m”*s"'] (2.3) 


gdzie: w — pulsacja, w = 2suf (f w [Hz]) 
— przewodność czwórnika G, odpowiadająca akustycznej konduktancji 
strat wskutek przewodnictwa pealiezo przy ścianach rury 


NL z z 
G= V żę 240 I [kg”* m*s] (2.4) 


— wiiókodi pojemność czwórnika C, (ujemna), odpowiadająca odwrot- 
ności akustycznej masy drgającej ścian kanału głosowego 


Cm m —- 1  [kg-! m* s] (2.5) 


— przewodność czwórnika G,, odpowiadająca akustycznej konduktancji 
strat drgających ścian kanału głosowego, opisana jest zależnością 


rS 


Gy m z 
*. rid+w?mą 


l [kg”! m*s] (2.6) 
Wstawiając do wzorów (2.1)-- (2.6) konkretne wartości otrzymujemy para- 
metry czwórników modelujących trakt głosowy przy artykulacji określonej 
głoski. Jest to możliwe, gdyż — co zostanie dalej pokazane — odpowiednie 
wymiary są znane. Mając parametry poszczególnych czwórników możemy 
wstawić je do wzorów opisujących —- na zasadzie analizy obwodów elek- 
trycznych — i symulować funkcjonowanie całego systemu pokazanego na 
rys. 2-21. 

Zestawienie konkretnych danych, pozwalających efektywnie wykorzystać 
przytoczone wyżej wzory, rozpoczniemy od określenia wartości występu- 
jących we wzorach stałych. I tak dla warunków panujących w ustach 
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o = 1,14 kgm”3 
c=350ms"1 

p = 1,86-10-5 Nm-2s 
A=2,302:1077m'!stK-! 
c, = 1,005 - 103 kg”! K-! 
1=14 

r; = 16-103 kg m”?s”1 

m, = 15 kg m”? 


Wybór długości odcinka rury / jest w istocie kompromisem między dokład- 
nością modelu a jego złożonością. Oczywiście korzystne jest wybieranie 
możliwie najkrótszych odcinków, aby przybliżenie kanału głosowego super- 
pozycją rur było możliwie wierne. Z drugiej jednak strony wzrost złożoności 
modelu nie pozwala kontynuować tego sposobu przybliżania zbyt długo, 
gdyż pozostające do dyspozycji środki badania własności modelu — w 
szczególności dostępne komputery — nie pozwalają na efektywne korzysta- 
nie ze zbyt złożonych modeli. Przyjmując jako rozsądne wymaganie, aby 
model mógł być wykorzystywany do symulacji zjawisk akustycznych 
o częstotliwościach nie przekraczających fax = 5000 Hz, możemy przyjąć 
c 
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co daje w przybliżeniu wartość I == 1 cm, typowo przyjmowaną w tego ro- 
dzaju modelach. Oczywiście tak drobna dyskretyzacja przestrzenna po- 
trzebna jest tam, gdzie kształt narządów mowy, a w szczególności ich prze- 
krój zmienia się bardzo szybko; te części, w których przekrój na dużej 
długości może być uważany za stały, mogą być modelowane jako całość za 
pomocą pojedynczego segmentu — czyli pojedynczego czwórnika. Taka 
sytuacja może być brana pod uwagę w przypadku prób — nie uwzględnia- 
nych tutaj — modelowania wpływu tchawicy i oskrzeli, Cała tchawica, 
o długości od rozwidlenia drzewa oskrzelowego do poziomu szpary głośni 
(średnio około 12 cm), może być traktowana jako jednakowego przekroju 


2-22. Zmiana przekroju 
[cm] w funkcji długości 
[cm] dla kanału 
nosowego, przyjmowana 
dla modelowania 

funkcji artykulacji 
głosek nazalizowanych. 
Wykres pochodzi 

z komputerowego 
systemu modelowania 
procesu artykulacji 
mowy i dlatego 

wartości pośrednie, 
między sąsiednimi 
ustalonymi wartościami 
(por. tekst) są zadane 

w formie interpolacji 
liniowej, co nie 
odpowiada skokowym 
zmianom przekroju, 
zakładanym na rys, 2-18 


T—— 


Kanał nosowy 
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2-23. Zmienność 
przekroju traktu 
głosowego (części 
ustnej i gardłowej) 
charakterystyczna dla 
artykulacji głoski i 


2-24. Przekrój 
narządów mowy przy 
artykulacji głoski y 
„(w transkrypcji 
oznaczanej jako +). 
Warto zauważyć 
różnice między tym 
rysunkiem 

a schematem z rys. 2-23 
oraz kolejnymi. 
dalszymi rysunkami 


2-25. Zmiana 
powierzchni 
przekroju traktu 
głosowego przy 
artykulacji głoski e 


Przekrój 
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2-26. Zmiana przekroju 
traktu głosowego przy 
artykulacji głoski a 


2-27. Zmiana przekroju 
traktu głosowego 

w funkcji jego długości 
dla głoski o 


2-28. Profil 
artykulacyjny narządów 
mowy przy 

artykulacji głoski u 


Przekrój 


Przekrój 


Przekrój 
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eliptyczna rura o średnicach odpowiednio 20 i 16 mm wzdłuż dłuższej i krót- 
szej osi elipsy. Podobnie oskrzela od rozwidlenia tchawicy do początku 
rozgałęzienia na elementy drzewa oskrzelowego w płucach mogą być trakto- 
wane jako jednorodne rury o długości 3 cm (prawe) i 5 cm (lewe) i przekro- 
jach odpowiednio 18 x 12 mm oraz 15 x 10 mm. W jamie nosowej również 
można wyróżnić fragmenty, których przekrój zmienia się na tyle wolno, że 
przyjmowanie jednocentymetrowego „kwantu” długości jest nieuzasadnio- 
ne. I tak dla kanału nosowego (12,5 em długości) można wydzielić aż 6 cm 
liczącą część centralną, której przypiszemy stałą powierzchnię przekroju, 
wynoszącą 2 cm2. Pozostały odcinek można podzielić na część tylną, w któ- 
rej początkowy, 3 em liczący odcinek ma zmienny przekrój z uwagi na 
ruchomość tylnego języczka podniebienia miękkiego otwierającego i przy- 
mykającego ten kanał w trakcie procesu artykulacji. Następny odcinek, 
o długości 1,5 cm, ma przekrój stały wynoszący 6 cm?. Dalej, idąc ku przo- 
dowi napotyka się wymieniony wcześniej, długi na 6 cm, odcinek o stałym 
przekroju i następnie, przy końcu jamy nosowej, dwa odcinki o przekroju 
odpowiednio 1,2 i 0,5 cm?, obydwa o długości I = 1 cm. Taki opis jamy 
nosowej sprawdził się w badaniach nad symulowaną komputerowo syntezą 
mowy i może być przyjęty jako model tego fragmentu traktu głosowego 
pomimo znacznych uproszczeń w stosunku do rzeczywistej jamy nosowej 
(rys. 2-22). 

Opis pozostałych fragmentów traktu głosowego, a konkretnie kanału gardło- 
wego i kanału ustnego, a także punktu rozwidlenia kanałów : ustnego i no- 
sowego, musi być uzależniony od konkretnej konfiguracji narządów mowy, 


2-29. Porównanie 
(w jednakowej skali) 
zmienności przekroju 


narządów 
artykulacyjnych 


w funkcji długości 
traktu głosowego dla 
wszystkich samogłosek 


języka polskiego. 
Widać duże 
zróżnicowanie 


przebiegów. Jeszcze 
większe różnice można 
zauważyć wprowadzając 


do rozważań 


odpowiednie profile 


także dla spółgłosek, 
przy czym analiza 


przebiegów 


spółgłoskowych jest 
utrudniona ze względu 


na to, że dla 
większości z nich 


charakterystyczny jest 
ruch narządów mowy, 


brak natomiast 
możliwego do 


narysowania, ustalonego 


nieruchomego 


przekroju — typowego -—3 


dla samogłosek 


Przekrój 


Długość 
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związanej z artykulacją danej głoski. Łączna długość wymienionych frag- 
mentów traktu głosowego wynosi od 17 do 19 cm ii zależy od stopnia labiali- 
zacji (wydłużenia warg) przy artykulacji odpowiednich głosek. Długość ta 
musi być podzielona na odcinki I cm długości, gdyż zmienność przekroju 
narządów mowy przy artykulacji wszystkich głosek jest tu bardzo duża. 
Na rysunkach 2-23 --2-28 pokazano obraz zmian przekroju narządów mowy 
w funkcji długości wzdłuż osi traktu głosowego. Pierwszy odcinek wszyst- 
kich wykresów o długości 7 cm odpowiada odcinkowi gardłowemu, następ- 
ny fragment pośredni długości | cm odpowiada rozwidleniu kanałów: noso- 
wego i ustnego, dalszy zaś — odcinkowi ustnemu. Przekroje podane na rys. 
2-23--2-28 odpowiadają — zgodnie z opisem na rysunkach — artykulacji 
poszczególnych samogłosek języka polskiego, a na rys. 2-29 pokazano na 
jednym wykresie, jak bardzo te przekroje się różnią w poszczególnych punk- 
tach. Podobne wykresy można sporządzić także dla artykulacji innych gło- 
sek, w szczególności szumowych, nosowych i-—w mniejszym stopniu 
z uwagi na istotny udział czynnika ruchu — dla zwartych, drżących itd. 
Dysponując wymiarami poszczególnych fragmentów traktu głosowego 
oraz zakładając niezmienność stałych o, c, u, A itd. można obliczyć paramet- 
ry zastępczych czwórników reprezentujących kształt kolejnych odcinków 
przewodu akustycznego odpowiednio: kanału gardłowego, ustnego i noso- 
wego, a także -— gdyby zaszła potrzeba -— struktur podgłośniówych: tcha- 
wicy i oskrzeli. Zastępcze impedancje podłużne i poprzeczne czwórnika 


2-30. Struktura 
czwórnika zastępczego 
w konfiguracji T. 
Czwórnik taki 
zastępuje w analizie 
matematycznej 
odpowiednie fragmenty 
traktu głosowego, 
dzięki czemu możliwe 
staje się opisywanie 


funkcjonowania 

narządów 

artykulacyjnych za 5: 2. 
pomocą bardzo 0-- -G 0 
rozwiniętego i dobrze 

znanego aparatu R pa) 
matematycznego teorii 

obwodów O Hin ó NE =rQ 


w konfiguracji 7 (rys. 2-30) można wyliczyć przy założeniu, że w torze 
głosowym rozchodzi się fala płaska — co istotnie jest spełnione w przypad- 
ku wyboru długości odcinków zastępczych zgodnie że wzorem (2.7). W tym 
celu wygodnie jest wprowadzić i obliczyć najpierw impedancję charaktery- 
styczną (falową) każdego czwórnika, korzystając ze wzoru 


R+jwoL 
Zo=V GRECCY G+G, jo(C+C,) €» 


Warto zauważyć, że impedancja Z, nie zależy od długości aproksymowane- 
go odcinka rury /, natomiast od długości tej zależy tamowność falowa y 
dana wzorem: 
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y = VGrieDj[(G+G)+iw(C+C) (2.9) 


Parametry czwórnika T wyraża się za pomocą impedancji charakterystycz- 
nej Z, i tamowności falowej y w sposób szczególnie prosty, gdy spełniony 
jest wspomniany warunek małych rozmiarów odcinków zastępczych rur. 
Wówczas występujące we wzorach na impedancję podłużną Z, i poprzecz- 
ną Z, funkcje hiperboliczne można zastąpić ich argumentami: 


R+joL 

Z, = Zytgh(y/2) © Zyy/2 = Z (2.10) 
1 

ZF y 70 (2.11) 


sinhy y G+G6,+jo(C+C) 


Według przytoczonych wzorów można obliczać — wstawiając odpowiednie 
parametry ze wzorów (2.1)-- (2.6) — parametry wszystkich czwórników 
łańcucha, zarówno modelujących tor gardłowy, jak i tor nosowy i ustny. 
Jedyny punkt, w którym wymagana jest pewna uwaga, dotyczy miejsca 
rozwidlenia kanałów: nosowego i ustnego. Można przyjąć, że w tym punkcie 
czwórnik modelujący kolejny — ósmy licząc od otworu głośni — odcinek 
traktu głosowego musi mieć parametry skorygowane w stosunku do war- 
tości wynikających z wymiarów geometrycznych, gdyż jego dane muszą 
uwzględniać bocznikujący wpływ impedancji wejściowej kanału nosowego 
Z,. Skorygowane parametry tego czwórnika można wyliczyć ze wzorów: 


Zo+Zn-3- 
Z,= Zozzz— — 4 
«= ZozczytZ,y) Gd 
ya Z, 
PARE RELEBEZBĄ 2.13 
= Z,kZyjy Ska 


gdzie wzór na określenie impedancji Z, będzie podany dałej (2.32). 
Dysponując modelem torów: gardłowego, ustnego i nosowego w postaci 
połączonych łańcuchowo czwórników o omówionej wyżej strukturze i para- 
metrach możemy, korzystając z teorii obwodów elektrycznych, określić 
transmitancję tych łańcuchów, a tym samym podać opis matematyczny 
najważniejszego elementu modelu. Transmitancje te wygodnie jest określić 
osobno dla toru gardłowo-ustnego, a osobno dla toru nosowego. 

Zgodnie z przyjmowanym w modelu systemem analogii akustyczno-elek- 
trycznych napięciom w poszczególnych węzłach układu odpowiadają ciśnie- 
nia akustyczne, a natężeniom prądu w gałęziach — prędkości objętościowe 
fali akustycznej. Źródło tonu krtaniowego, które w naszym modelu pełni 
funkcję elementu wymuszającego, dostarcza odpowiednio zmiennej w czasie 
fali o dającej się obliczać prędkości objętościowej V„(ż). W modelu odpowia- 
dać temu będzie źródło prądowe o natężeniu ły(t). Krtań charakteryzuje się, 
także określoną impedancją Z,, której określeniu poświęcone będzie dalej 
nieco miejsca. Opisane źródło zasila układ, wywołując przepływ prądów 
oczkowych (rys. 2-31). Ostatni czwórnik jest zwierany przez impedancję 
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Za2 


2-31. Wykorzystujący czwórniki zastępcze typu T układ zastępczy, wykorzystywany przy określamu 
transmitancji kanału gardłowo-ustnego. Łańcuch czwórników zasilany jest (po lewej stronie) ze źródła 
prądowego 7, o impedancji szeregowej Ż,, zawiera q oczek zbudowanych z czwórników zastępczych 

i domknięty jest impedancją promieniowania ust Z, 


obciążenia Z,, (impedancja promieniowania ust). Stosunek natężenia 
prądu w tej impedancji 7,, odpowiadający w przyjętej skali prędkości obję- 
tościowej fali w otworze ust V„, do odpowiednich wartości I, oraz V, na 
wysokości głośni stanowi interesującą nas transmitancję. Oznaczając zatem 
transtnitancję toru gardłowo-ustnego przez H,„(jw), możemy więc zapisać: 
> Vo) _ (io) 
H,(ijo) = Pio) = LGo) 
Równania Kirchhoffa dla obwodu o schemacie podanym na rys. 2-31 można 
zapisać w postaci 


(2.14) 


Z417, + ZązJ3 = Z,ł, (2.15) 
Za +Z2212+ Z237 = O (2.16) 
Z3ą lz + Z3313 + Z34 7, = 0 (2.17) 
Za ala 1 + Ząąłą = 0 (2.18) 


Liczba równań wynika z liczby oczek utworzonych przez q — 1 czwórników 
odwzorowujących tor gardłowo-ustny. Oznaczenie 7, użyte we wzorach 
(2.15)--(2.18) oznacza prąd oczkowy w k-tym oczku (k= 1,2,...,4), 
impedancje zaś własne oczek Z,, oraz wzajemne Zę.-. 1 1 Zpccą 1) SĄ SUMami 
odpowiednich impedancji czwórników: 


Z = Zany Zack 17 * Zak Zpw (2.19) 
ZG-1)k = Zy=1) = — Zpęk- 1) (2.20) 
Zen) = Zqsiyk = — Zk (2.21) 


gdzie indeksy k— 1, k, k+ 1 są numerami odpowiednich czwórników, któ 
rych impedancje Z, i Z, są uwzględniane w sumie. Przyjęto zasadę nume- 
racji, że gałąź poprzeczna k-tego czwórnika, mająca impedancję Z, sta» 
nowi granicę pomiędzy oczkami o numerach k oraz k+1. Dla skrajnych 
oczek można zapisać 

Z Ż Zaj Zi + Ż9 (2.22) 
oraz 

Zą = Zaca) + Zsaa- 1) + Zpu (2.23) 


W dalszych rozważaniach wygodnie będzie rozważać układ równań (2.15) -- 
(2.18) w postaci macierzowej: 


ZI= U (2.24) 
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gdzie macierz Z, ma postać trójdiagonalną: 
Zy z 0 0 0..00 
Za Zza Ża40 0 ...00 
Z=|0O Zy Zs: Z340 ...00 


0.0.0 0 0... Zą-usZaa 


(2.25) 


a wektor wymuszeń U ma postać dogodną do obliczeń, gdyż jedynie pierw= 
szy jego element jest niezerowy. Z równań (2.24) można bez trudu wyliczyć 
prąd w dowolnym oczku wzoru 
A 

h= ww Zł, (2.26) 
gdzie A jest wyznacznikiem głównym macierzy Z, a Ay, jest jej podwyznacz- 
nikiem względnym (kofaktorem) dla elementu Z,,. Transmitancję (2.14) 
można teraz wyznaczyć bez trudu opierając się na fakcie, że 7, = I, a także 
zakładając dla uproszczenia, że I, x /,. Wówczas 


A 
H„(jo) = K (2.27) 


i może być dla każdej konfiguracji przestrzennej obliczona na podstawie 
przytoczonych wyżej wzorów i wymiarów traktu głosowego. 

W identyczny sposób można przeprowadzić obliczenia dla kanału nosowe- 
go, którego macierz impedancyjna ZA jest prostsza i zawiera elementy 
odpowiadające jedynie sześciu oczkom: 


ZnZŻn0 0 0 0 
Żą Za Zaz 0 0 0 
0 -Ząs Zas Z4 0 0 
0.0 Ząs Ząą Zas 0 
0.0 0 Zsą Zss Zs6 
0.0 0 0  Zss Zsć 


Zy = (2.28) 


Warto zwrócić dodatkowo uwagę, że liczba oczek dla kanału nosowego jest 
stała, w przeciwieństwie do liczby oczek modelu toru gardłowo-ustnego, 
która musiała być traktowana jako zmienna i oznaczana przez g z uwagi 
na zmienną długość toru gardłowo-ustnego przy artykulacji różnych gło- 
sek. 

Struktura równań opisujących tor nosowy różni się także i tym od struktury 
dla toru gardłowo-ustnego, że wymuszenie w torze nosowym ma charakter 
ciśnieniowy (w analogu elektrycznym — napięciowy) i odpowiada różnicy 
potencjałów na impedancji Z, czwórnika, który modeluje rozgałęzienie 
torów ustnego i nosowego. W rozważanym modelu rozgałęzienie przypada 
w miejscu odpowiadającym położeniu czwórnika nr 8, którego parametry 
były wcześniej dyskutowane — por. wzory (2.12) i (2.13). Tak więc zapisując 
dla toru nosowego równania analogiczne do (2.24) 


Zyły = Ux (2.29) 
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musimy jako wektor wymuszeń Ux przyjąć wektor o pierwszej składowej 
wyliczonej ze wzoru 


A A 
u, =: Z, 18 —_ 19 
8 | A A 
i pozostałych składowych wynoszących zero. 
Rozwiązując układ równań (2.29) można określić w sposób analogiczny 
do wyżej opisanego transmitancję kanału nosowego ze wzoru 


Aus(N) 
A.(N) 


| (2.30) 


H,(io) = (2.31) 
gdzie indeks N oznacza, że odpowiednie wyznaczniki są obliczane dla ma- 
cierzy Zw, a nie jak uprzednio Z. Rozwiązując równania (2.29) można bez 
trudu wyznaczyć potrzebną nam wcześniej wartość impedancji wejściowej 
toru nosowego Z, (por. wzory (2.12) i (2.13)). Wartość ta może być wyzna- 
czona ze wzoru 


Us A(N) 

Żn= GN) 7 Au) SA 
Przy obliczaniu transmitancji kanału nosowego można zwykle uprościć 
strukturę czwórnika zastępczego pomijając w nim składniki G, i C;, gdyż 
ściany:jamy nosowej są na ogół znacznie bardziej sztywne niż Ściany gardła 
czy jamy ustnej. Impedancja promieniowania nozdrzy, zwierająca na końcu 
łańcuch czwórników, może być obliczona podobnie jak impedancja pro- 
mieniowania ust ze wzorów podanych dalej. 
Etap budowy modelu, polegający na określeniu transmitancji układów 
o zmiennej strukturze, odpowiadających kanałom: gardłowemu, ustnemu 
i nosowemu, jest najtrudniejszym zadaniem w tworzeniu opisu matematycz- 
nego procesu naturalnej artykulacji. W celu opisania całości modelu mu- 
simy rozważyć strukturę generatora tonu krtaniowego oraz parametry 
impedancji promieniowania ust i nozdrzy. Krtań (struny głosowe) jest gene- 
ratorem aerodynamicznym, którego drgania są warunkowane parametrami 
mechanicznymi (masa, sztywność, rezystancja strat), geometrycznymi (sze- 
rokość i konfiguracja głośni) oraz przepływem powietrza (ciśnieniem pod- 
głośniowym, obciążeniem, impedancją wejściową toru głosowego). Rozmia- 
ry geometryczne szpary głośni są na ogół przyjmowane (rys. 2-32) w sposób 
następujący: długość 18 mm, głębokość (grubość fałdu głosowego) 3 mm, 
powierzchnia otworu — zmienna od 0 do ok. 20 mm?. Schemat funkcjono- 
wania głośni może być dany jak na rys. 2-33. Czynnikiem bezpośrednio 
wymuszającym drgania jest podgłośniowe ciśnienie powietrza p,. Powietrze 
przetłaczane przez szczelinę głośni o powierzchni A, wprawia w drgania 
struny głosowe, w wyniku czego powierzchnia szpary głośni zmienia się 
w czasie w przybliżeniu w ten sposób, że czasowy przebieg A,(t) tworzy 
serię quasi-periodycznych impulsów trójkątnych o czasie narastania ry, 
czasie opadania 7 i okresie Tę > T,++Trą. Parametr 79, będący odwrot- 
nością częstotliwości podstawowej Fy, zmienia się wraz ze zmianami para- 
metrów układu drgającego, przy czym oznaczając masę drgających strun 
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przez m (rys. 2-34) oraz ich sztywność przez s możemy w przybliżeniu za- 


pisać 
1 c3 
J REJ, PEM 
$ pz m 
maj WY 
t ZL 
dg EEE t 
Is 
A_1 


l 


2-32, Uproszczony rysunek przekrojowy krtani. 
Struny głosowe są traktowane jako zwężenie na 
drodze przepływu powietrza przepychanego pod 
ciśnieniem podgłośniowym p,, przy czym 
ignorując złożone stosunki przestrzenne 
rzęczywistych strun głosowych opisuje się je jako 
prostokątną szczelinę o długości £,, szerokości W 
(zmiennej w czasie!) oraz grubości dy. 
Podstawowym parametrem uwzględnianym 

w dalszej analizie jest zakreskowana 
powierzchnia szpary głośni Ag, oczywiście 
zmieniająca się w czasie 


2-34. Szczegółowy 
(bliższy realnej 
sytuacji) (a) oraz 
uproszczony, 
jednomasowy (b) model 
strun głosowych. 
Modele tego typu 
budowane są dla 
dokładniejszego 
przebadania związku 
między parametrami 


strun głosowych 


Ź 


(2.33) 


2-33. Schemat blokowy źródła krtaniowego. 
Ciśnienie podgłośniowe p, wymusza przepływ 
powietrza o prędkości objętościowej V,, zależnej 
od impedancji przepływu Z,. Impedancja ta 
zależy głównie od powierzchni przekroju 
szczeliny głośni 4,, która jednak zmienia się 

w czasie na skutek dynamicznego oddziaływania 
strumienia przepływającego powietrza ze 
strunami głosowymi. Oddziaływanie to zależy 
od parametrów mechanicznych strun, głównie od 
ich masy m i sprężystości s 


Ą 


(masą m, o 
sprężystością s, o 
tłumieniem 3 PZ 


wiskotycznym r) 
a parametrami 


A 


Tor gtoso 
Tchawica 


4 Vglt 
Ps Głośne Wa 


Tar głosowy 


generowanego sygnału 
dźwiękowego V;(r) 
przy różnych 
wartościach ciśnienia 
podgłośniowego 


3 Teh 
> 


Uwzględniając dodatkowo fakt, że działanie mięśni krtani na ogół wpływa 
równocześnie na parametry si mt możemy przyjąć, że parametr 7, zmienia 
się w czasie. Są to jednak zmiany na tyle wolne, że rozważając krótkie od- 
cinki czasu możemy przebieg uważać za okresowy. 

Przebieg czasowy 4,(f) można zapisać w sposób następujący (por. rys. 
2-35): 
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—t gdy 0< t< Ty 
T1 
a 
A,(t) = SE gdy Ti ES Tr +T2 (2.34) 
0 gdy Tr+T2 Ś I To 


A;(t—nT,) gdy t> Tysn=l,2,... 
Transformata Laplace'a takiego przebiegu ma postać 


4,5) "| -| | AZ 


s? | CAMICZ 


| e | (2.35) 


Ta 
Rozważając widmo 44(jw) można zauważyć, że jest ono proporcjonalne do 
czynnika f-? (gdzie / jest częstotliwością), w wyniku czego widmo sygnału 
krtaniowego ma obwiednię opadającą (12 dB/oktawę). 


Amplituda 


pz 


Czas 


2-35. Przebieg czasowy (symulowany przez komputer) powierzchni przekroju szczeliny głośni w czasie 
procesu artykulacji głoski dźwięcznej. Widoczny jest charakterystyczny, trójkątny kształt impulsów 


Zmiany powierzchni 4,(t) (rys. 2-33) wpływają na zmiany impedancji 
akustycznej Z, szpary głośni, które modulując przepływ powietrza wywołany 
ciśnieniem podgłośniowym p,, powodują określony przebieg prędkości obję- 
tościowej fali akustycznej V;(t). 
Przebieg omówionych zmian można opisać następująco. Impedancja głośni, 
wyrażająca się wzorem 

Z,=Ry+R,tjoL 0.36) 


i może być, w zakresie częstotliwości typowych dla tonu krtaniowego 
(/ < 1000 Hz) i przy normalnym wysiłku głosowym, wyrażającym się ciśnie- 
niem podgłośniowym p, < 1569 Pa, zadowalająco aproksymowana częścią 
rzeczywistą”. | 

Z, z R.+R, 2.37) 
gdzie R, oznacza kinetyczną rezystancję strat, związaną z przemianą ciśnie- 
nia na energię kinetyczną przepływu powietrza w głośni, a R, jest klasyczną 
rezystancją tarcia powietrza o ściany głośni. Obie składowe, zarówno R;, 


* Wpływ części urojonej impedancji, powodowanej bezwładnością powietrza w szparze 
głośni, występuje jedynie przy dużych częstotliwościach. 
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jak i R, zależą od powierzchni otworu głośni A,, są więc zmienne w czasie. 
W szczególności dła małych wartości A, dominujące znaczenie ma rezys- 
tancja R„, której wartość może być wyznaczona ze wzoru 


(2.38) 


gdzie d, jest głębokością szpary głośni (według przytoczonych wyżej danych 
d, = 3 mm), m jest współczynnikiem tarcia powietrza (wprowadzonym już 
uprzednio), £, jest długością szpary głośni (zwykle przyjmuje się /, = 18 mm). 
Dla dużych wartości 4, (konkretnie dla 4, > 0,2 Agywx) dominujący oka- 
zuje się natomiast drugi składnik wzoru (2.37), to znaczy kinetyczna re- 
zystancja strat. 


V2eb: 
24, 


Wyliczenia numeryczne oparte na przytoczonych wzorach prowadzą do 
wniosku, że łączna impedancja Z, jest rzędu 107 omów akustycznych i może 
być uznana w prawie całym zakresie częstotliwości za znacznie większą od 
impedancji wejściowej kanału głosowego. Jest to uzasadnienie dla wcześniej 
przyjętego założenia, że źródło krtaniowe jest aproksymowane w schemacie 
zastępczym przez źródło prądowe, co odpowiada wymuszeniu akustycznemu 
o stałej wartości prędkości objętościowej. Porównując impedancję Z, 
z impedancją falową kanału głosowego musimy brać pod uwagę rezonanse 
w nim występujące. Szczególnie na uwagę zasługują rezonanse przy niskich 
częstotliwościach, gdyż ze wzrostem częstotliwości impedancja kanału gło- 
sowego maleje do wartości około 8,5: 105 omów akustycznych. Natomiast 
rezonanse niskoczęstotliwościowe, szczególnie odpowiadające tzw. pierw- 
szemu formantowi samogłoskowemu mogą charakteryzować się znacznym 
zwiększeniem impedancji falowej traktu głosowego, która może wówczas 
przyjmować wartości porównywalne z wartościami Z,. Zatem w tych za- 


Ry = 0,875 (2.39) 


UAD 


og, 


— ——— P—1 GOA PEC zes Poza EE siej, —— r 


: zn z j , 
«0 120 200 280 360 440 520 600 680 760 840 920 1000 


2-36. Porównanie przebiegu czasowego powierzchni przekroju szpary głośni 4,(£) (linia przerywana), 
zadanego zgodnie z rzeczywistym przebiegiem czasowym, z przebiegiem czasowym prędkości 
objętościowej V,(t) (linia ciągła). Nawet przy dużej dokładności komputerowych obliczeń różnica 
pomiędzy przebiegami Ay(£) oraz V,(t) jest trudno dostrzegalna. Możliwe jest więc traktowanie 
przebiegu V,(r) jako fali trójkątnej o widmie opadającym 12 dB/oktawę, gdyż rozbieżność rzeczywistego 
przebiegu w stosunku do takiego przybliżenia jest pomijalnie mała 
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kresach niskich częstotliwości charakterystyki modelu wyliczone przy za- 
łożeniu prądowego charakteru źródła wymuszającego mogą odbiegać od 
rzeczywistych charakterystyk narządów mowy. 

Pomijając te niedokładności możemy obecnie wyznaczyć parametry źródła 
sygnału, jakim jest krtań. Przebieg czasowy prądu źródła /,(t) odpowiada 
(w przyjętym systemie analogii) przebiegowi prędkości objętościowej V;(t). 


Ps A Ps 
„O= z * RIAGIERIAGI M 


Przebieg czasowy V„(t) wyliczony ze wzoru (2.40) z uwzględnieniem zależ- 
ności (2.38) i (2.39) przy trójkątnym przebiegu zależności 4,(t) (por. wzór 
(2.34)) przedstawiono na rys. 2-36. Jak widać, impulsy V,(t) nie są — ściśle 
biorąc — trójkątne, mogą jednak być z zadowalającą dokładnością apro- 
ksymowane przebiegiem trójkątnym. Zresztą należy mieć na uwadze także 
fakt, że przyjęcie trójkątnego kształtu impulsów (rys. 2-35 i wzór (2.34)) 
miało także charakter pewnego przybliżenia. 

Powracając do schematu blokowego z rys. 2-33 należy stwierdzić, że ciśnie- 
nie podgłośniowe p, wraz ze zmienną w czasie impedancją Z, (t) określają 
wartość prędkości objętościowej V,(t), a ta z kolei oddziałuje na zmiany 
4,(t) kształtujące wartości Zy(t). Generator krtaniowy jest więc typowym 
generatorem pracującym ze sprzężeniem zwrotnym, przy czym parametry 
generowanego sygnału są określone przez takie własności układu jak para- 
metry mechaniczne drgających strun głosowych. Parametry te są regulowa- 
ne, jak to wcześniej omówiono, odpowiednimi mięśniami sterowanymi przez 
wymienione fragmenty systemu nerwowego. Działanie krtani może więc być 
w pełni opisane przez podane wyżej wzory. Na zakończenie prezentowanych 
rozważań warto zwrócić uwagę na jeszcze jeden fakt. Impedanoja krtani jest 
zmienna, co bardzo komplikuje model źródła krtaniowego i związane z nim 
rozważania. Przy obliczeniach przyjmuje się często uproszczony model ze 
stałą impedancją źródła, wyliczoną dla spoczynkowej wartości stopnia 
otwarcia fałdów głosowych, co odpowiada wartości impedancji wyliczonej 
ze wzoru (2.39) przy wstawieniu doń wartości Ago = 5 mm?. Badania 
symulacyjne wykazały, że nie ma istotnego znaczenia, czy będzie przyjęta 
stała wartość impedancji Z,, czy też będzie zastosowany pełny model ze 
zmienną w czasie impedancją źródła, o ile tylko modelowaniu podlega pro- 
ces artykulacji przy niezbyt wielkim wysiłku głosowym (wyrażającym się 
małą wartością ciśnienia podgłośniowego p.). 

W celu podsumowania rozważań nad modelem naturalnego procesu artyku- 
lacji należy rozważyć jeszcze kilka prostych problemów szczegółowych. 
Pierwszą sprawą jest wyznaczenie impedancji promieniowania odpowiednio 
ust Z,,i nosa Z,,. Jak pamiętamy impedancje te domykały łańcuchy czwór- 
ników modelujących odpowiednio kanał nosowy i kanał ustny. W literaturze 
są omawiane różne modele akustyczne procesu emisji sygnału mowy z ust. 
Na podstawie tych modeli dochodzi się do różnych na ogół wzorów do 
obliczenia wartości Z,, oraz Z,,. Nie wnikając tu w zasadność różnych 
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modeli można przyjąć i zaakceptować ostateczny rezultat rozważań w pos- 
taci wzoru 
_  g60ż . 80 

Zm = Arc K(o) rio 3n*ru GW) 
gdzie r, oznacza promień otworu ust (przy założeniu, że otwór ten można 
uważać za kołowy, K(w) — czynnik korekcyjny mający na celu uwzględ- 
nienie, przy niskich częstotliwościach, faktu, że usta znajdują się w kulistej 
głowie mającej niewielkie rozmiary, a nie są drgającym tłokiem w nieskoń- 
czonej płaskiej odgrodzie. Czynnik korekcyjny wyliczany jest ze wzoru 


0,ów0 
—rzęc- FI dla w 4 Żm 1600 Hz 
K(w) = | 2r1600 (2.42) 
1,6 dla w > 2m 1600 


Wzór dla impedancji promieniowania nozdrzy jest prostszy, gdyż z jednej 
strony małe rozmiary nozdrzy pozwalają na stosowanie przybliżonych wzo- 
rów, a ponadto powierzchnia nozdrzy 4, nie ulega zmianom tak jak pro- 
mień ust r,. Impedancję Z,, można więc obliczyć ze wzoru 
gw” |, o 

Z, = — +jo——=—— 

"| Zme Jny/4, 
Wszystkie elementy modelu procesu artykulacji głosek dźwięcznych są już 
określone. Pozostaje jeszcze rozważenie artykulacji głosek szumowych, 


(2.43) 


Obszar mieszania 


2-37. Model źródła 
szumowego, używany 
do prezentacji zjawisk 
zachodzących przy 
artykulacji głosek 
szumowych. Model ma 
postać dyszy 

o średnicy d 


Jednorodne 
pole prędkości 


Obszar. Obszar zanikania 
wyrównywania turbulencji 


przy wytwarzaniu których źródło dźwięku znajduje się w określonym punk- 
cie wzdłuż osi traktu głosowego — powyżej krtani, która ze swojej strony 
dodaje lub nie składową dźwięczną. Nie można w tym przypadku wyzna- 
czyć przebiegu czasowego sygnału źródła dźwięku, gdyż ma on przypadko- 
wy (stochastyczny) charakter. Rozpatrując wypływ powietrza przez zwęże- 
nie w narządach mowy, będące źródłem szumu, możemy posłużyć się mo- 
delem dyszy o średnicy d, przez którą powietrze o gęstości g, i temperaturze 
T, wypływa z prędkością v do otoczenia, w którym panuje temperatura 7o 
i gęstość powietrza wynosi go. Jak widać na rys. 2-37, przy takim modelu 
procesu generacji szumu można wyróżnić obszar mieszania (zachodzi tu 
mieszanie powietrza wypływającego z nieruchomym powietrzem otaczają- 
cym), w którym generowane jest 49,9%, energii akustycznej. Częstotliwość 
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środkowa emitowanego szumu jest zależna od odległości rozważanego 
punktu od miejsca przewężenia x i może być wyznaczona ze wzoru 


o [0,2 | 38 
4-4 (sia) 


sld (2.44) 


Drugi ważny obszar, zaczynający się w odległości x > 4d od miejsca prze- 
wężenia, odpowiada obszarowi wyrównywania. W obszarze tym jest pro- 
mieniowane 48,4%, energii całkowitej szumu, a jej widmo jest określane 
przez częstotliwość środkową f4, 


o (1,8 [143 
fe=q 7] E3 
Pozostałą częścią energii fali, wynoszącą zaledwie 1,7%, nie będziemy się tu 
zajmowali. 

Łączna moc akustyczna szumu generowanego przez strumień wypływającego 
powietrza wyznaczona może być ze wzoru 


ożode 


P=3-1075 (2.46) 


2 
Qoc” (Z 106404) 


T, 


2-38. Maksymalnie 
uproszczony model 
procesu artykulacji 
głosek szumowych. 
Charakterystyczne jest 
umieszczenie źródła 


pobudzenia p, 
(w rozważanym 


przypadku — szumu) 
wewnątrz łańcucha 


czwórników 


modelujących trakt 
głosowy, a nie na jego 
początku, jak przy 
artykulacji głosek 


2 pobudzeniem 
krtaniowym 
(dźwięcznych) 


Źródło szumu o podanych charakterystykach jest umieszczone ponadkrta- 
niowo, w określonym punkcie łańcucha czwórników zastępczych modelu- 
jących tor gardłowo-ustny (rys. 2-38). Rozwiązując równania tego obwodu 
możemy w każdym konkretnym przypadku określić transmitancję toru 
i jego łączną charakterystykę, a tym samym modulujący wpływ, jaki na 
szum (i ewentualnie towarzyszący mu ton) ma określona konfiguracja na- 
rządów mowy. Zasadniczo nowym elementem, jakiego możemy przy tym 
oczekiwać w stosunku do wcześniej przeprowadzonych rozważań, jest po- 
jawianie się w tym przypadku znaczących zer transmitancji, czyli głębokich 
minimów charakterystyki amplitudowo-częstotliwościowej, w której uprzed- 
nio dominowały bieguny (będące źródłem maksimów rezonansowych). 
Łatwo to zauważyć na skrajnie uproszczonym modelu traktu głosowego ze 
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pojawienia się w widmie 
składowych o niskich 
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wzbudzeniem ponadkrtaniowym, przedstawionym na rys. 2-38, Transmi- 


tancję tego układu można przedstawić w postaci 


Zy2 ŁA 


zode (Zu + Za + aa t Zpa) (Zy2 + Za + Zn) Ea 


Transmitancja ta ma minima w punktach będących pierwiastkami licznika. 
Oczywiście przy bardziej realistycznym odwzorowaniu kształtu traktu gło- 
sowego wraz z przewężeniem postać transmitancji będzie bogatsza, a jej 
bieguny i zera będą determinować obwiednię generowanego szumu, decy- 
dując o zróżnicowanym kształcie widma różnych głosek szumowych (por. 
rys. 2-39). 

Podsumowując można stwierdzić, że istnieje możliwość opisania i matema- 
tycznego modelowania procesu naturalnej artykulacji sygnału mowy, co 
dowodzi, że proces ten jest już wystarczająco dobrze poznany i że wiedza na 
ten temat jest spójna i wewnętrznie niesprzeczna. Rozumiejąc dokładnie 
proces naturalnej artykulacji mowy możemy też podejmować próby jego 
naśladowania konstruując urządzenia i algorytmy komputerowe wytwarza- 
jące mowę w sposób sztuczny. Teoretycznie najbardziej oczywistą drogą 
takiego sztucznego generowania sygnału mowy jest skonstruowanie mo- 
delu — na przykład symulacyjnego — opisanych wyżej procesów i uzyski- 
wanie z niego potrzebnych przebiegów czasowych, emitowanych następnie 
z wykorzystaniem technik przetwarzania cyfrowo-analogowego i typowego 
wyposażenia elektroakustycznego. Opisana droga jest jednak dla współ- 
czesnej techniki zbyt złożona. Nakład obliczeń wymagany przy symulacji 
rzeczywistego procesu artykulacji nie pozwala na uzyskiwanie rezultatów 
w czasie rzeczywistym, a ponadto koszt takiej syntezy jest zbyt duży, aby 
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mógł być akceptowany. Potrzebne są więc specjalistyczne metody sztucznej 
syntezy sygnału mowy, dostarczające sygnału o zadowalających parametrach 
— tańszym kosztem. 


Wytwarzanie mowy z wykorzystaniem 
systemów technicznych 


Jak pokazano na rysunku 2-1, wytwarzanie mowy w systemach technicz- 
nych może polegać bądź to na odtwarzaniu sygnału zapisanego w określo- 
nej postaci, bądź na generacji sygnału z wykorzystaniem specjalistycznej 
aparatury. W pierwszym przypadku mamy do czynienia z mową rekonstruo- 
waną i podstawowy problem polega na tym, jak zmniejszyć objętość infor- 
macyjną zarejestrowanej mowy, aby nie zajmować zbyt dużych obszarów 
pamięci w urządzeniu odtwarzającym. Technika ta jest prymitywna, ale 
gwarantuje szybkie osiągnięcie potrzebnych efektów. Na tej zasadzie działa 
większość komercyjnych systemów syntezy mowy (nicktóre z nich będą 
omówione). 

Alternatywne podejście polega na tym, by stworzyć syntezator o możliwie 
prostej strukturze, a równocześnie o parametrach i możliwościach zbliżo- 
nych do naturalnego traktu głosowego człowieka. Ta droga jest trudniejsza, 
ale pozwala na syntezę sygnału odpowiadającego dowolnym — a nie tylko 
uprzednio zarejestrowanym — wypowiedziom. Problem polega tu głównie 
na opracowaniu metod sterowania parametrami syntezatora mało obciąża- 
jących dla systemu sterującego (w sensie nakładu obliczeń). Wydaje się, że 
ostatnio na tej drodze notuje się sporo interesujących rozwiązań praktycz- 
nych i zapewne technika generacyjna zdominuje wkrótce rynek systemów 
syntezy mowy. 

Przechodząc do rozważań bardziej szczegółowych zaczniemy od urządzeń 
odtwarzających. Sygnał mowy można zapamiętać w formie analogowej (na 
przykład w postaci nagrania magnetofonowego) i następnie odtworzyć 
w razie potrzeby w całości lub składając z kilku odpowiednio dobranych 
fragmentów całą wiadomość. W ten sposób funkcjonuje mnóstwo urządzeń 
informacyjnych od telefonicznych automatów informacyjnych poczynając 
(np. „zegarynka”), a na informacji dworcowej i domowych „sekretarzach” 
kończąc. Wadą takiego sposobu odtwarzania mowy jest mała elastyczność: 
asortyment możliwych wypowiedzi jest ograniczony i ściśle zdetermino- 
wany zawartością „„banku informacji”, a zmiana odtwarzanych komunika- 
tów jest kłopotliwa. Szczególnie istotne jest ograniczenie dotyczące utrudnień 
montażu dłuższych komunikatów z elementów składowych. Możliwości 
popularnej zegarynki, w której oddzielnie nagrane poszczególne godziny 
są montowane z cyklicznie odtwarzaną liczbą minut, wyznaczają zakres 
możliwych operacji. W systemach, w których liczba możliwych komunika- 
tów musi być większa, a ich różnorodność także przekracza ramy najprost- 
szych kilkuwyrazowych anonsów, pojawiają się kłopoty z efektywnym ma- 
gazynowaniem, wyszukiwaniem i łączeniem ze sobą elementów. Pierwszy 
problem, który się przy tym wyłania, dotyczy rodzaju użytych do składania 
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elementów. Niewątpliwie najłatwiej jest zbudować system, w którym ele- 
mentami podlegającymi „„montażowi”” są całe wyrazy. Są one w naturałny 
sposób odizolowane jeden od drugiego, mogą być więc montowane przy 
minimalnym jedynie uwzględnieniu zjawisk powstających na styku segmen- 
tów. Wprawdzie mowa tak rekonstruowana będzie monotonna, pozbawiona 
wszelkiej intonacji i wysoce nienaturalna w odbiorze, ale w końcu można się 
zgodzić z pewnymi niedogodnościami, jeśli w ślad za nimi iść będą prostota 
konstrukcji i niska cena. Praktyka wykazała bowiem, że komunikaty wy- 
twarzane w wyżej omówiony sposób będą zrozumiałe. Jednak liczba wy- 
razów, którą trzeba przy takim systemie zgromadzić jako „budulec” do 
syntezy, jest bardzo duża. Nawet przy drastycznych ograniczeniach podsta- 
wowy zasób słów niezbędnych do w miarę elastycznej budowy tworzonych 
wypowiedzi musi zawierać kilka tysięcy wyrazów. Można przyjąć, że słownik 
zawierający 4000 wyrazów byłby w podstawowych zastosowaniach wystar- 
czający. Jednak język polski odznacza się bardzo niewygodną własnością: 
jest fleksyjny, co oznacza, że obok podstawowych form poszczególnych wy- 
razów trzeba dysponować także formami odmiennymi, a to powiększa słow- 
nik o dalsze 12 000 wyrazów. Pełny słownik języka polskiego zawiera na- 
tomiast ponad 100 000 wyrazów. W sumie jest tego zbyt wiele, aby można 
było taką „taśmoteką”” swobodnie operować. 

Może więc rozwiązaniem jest użycie mniejszych fragmentów lingwistycz- 
nych — na przykład sylab? Jest ich w języku polskim około 2000, a przez 
odpowiednie ich zestawianie można wygenerować każdy wyraz. Jednak jest 
to nadal liczba zbyt duża dla operatywnego działania systemu, a ponadto 
mowa zestawiona z oddzielnych sylab bez zastosowania „łagodnego”” przejś- 
cia sygnału od jednej sylaby do drugiej jest bardzo nieprzyjemna w odbiorze 
i mało zrozumiała. Wydaje się, że zamiast kompromisowo wybierać sylaby 
lepiej pójść w „,rozdrabnianiu”” sygnału mowy jeszcze dalej i zdecydować się 
od razu na to, aby opierać system odtwarzania na głoskach, czyli mówio- 
nych odpowiednikach liter. To nieprecyzyjne określenie wymaga oczywiście 
uściślenia, gdyż często kilka głosek jest kodowanych tą samą literą, a nie- 
kiedy kilka liter koduje jedną głoskę. W dalszej części książki pojęcie głoski 
będzie bardziej istotne dla rozważań — szczególnie w kontekście zadań 
rozpoznawania mowy — i wówczas będzie dokładniej. przedyskutowane*. 
*) W literaturze dotyczącej zagadnień analizy, syntezy i rozpoznawania mowy często jest 
używany termin fonem. Pod pewnymi względami pomiędzy głoską a fonemem za- 
chodzą daleko idące analogie i dlatego w literaturze technicznej, w której efektywność 
praktycznych rozwiązań ceni się zwykle wyżej, niż precyzję wysławiania —- traktuje się 
niekiedy terminy „fonem” i „głoska wymiennie. Takie postępowanie jest naturalnie 
nieprawidłowe, gdyż pojęcie fonemu jest bardziej abstrakcyjne od pojęcia głoski — często 
przyjmuje się na przykład, że desygnatem pojęcia fonem jest klasa głosek, między którymi 
występują jedynie różnice osobnicze (tj. wynikające z indywidualnych cech głosu lub wy- 
mowy) lub kontekstowe (tj. wynikające z wpływu głosek sąsiednich). Dla technika fonem 
może zatem być idealnym wzorcem głoski, od którego każda konkretna realizacja w pew- 
nym stopniu odbiega. Jednak w systemach syntezy mowy komputer tworząc głoski po- 
sługuje się pewnymi wzorcami, które ściśle biorąc fonemami nie są — jednak bywają tak 
nazywane. Podobnie w systemach rozpoznawania rejestrowane głoski są porównywane ze 
wzorcami, które także nie spełniają rygorystycznych wymogów definicji fonemu —a jed- 
nak z braku innego terminu mówi się także w tym przypadku o rozpoznawaniu fonemów. 


"Te niedoskonałości języka techniki znajdują swoje częściowe usprawiedliwienie w fakcie, 
że lingwiści, którzy wprowadzili pojęcie fonemu i którzy nim chętnie operują (zarzucając 
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W chwili obecnej istotne jest, że głosek jest niewiele — około 40 dla języka 
polskiego. Z głosek można zbudować każdy wyraz lub grupę wyrazów, jest 
to więc (pozornie) idealne „tworzywo” do reprodukcji mowy. Niestety, 
głoski w różnych kontekstach miewają różne brzmienie i różnice te są istotne 
dla zrozumienia treści wypowiedzi. Ponadto głosek nie można już pod żad- 
nym pozorem łączyć mechanicznie ze sobą, gdyż łagodne przejście od głoski 
do głoski — w warunkach naturalnej artykulacji zabezpieczone przez ła- 
godny ruch narządów mowy od jednej pozycji do drugiej, odpowiadającej 
artykulacji kolejnej głoski — jest koniecznym warunkiem odbierania su- 
biektywnego całości sygnału jako zrozumiałego sygnału mowy. Zresztą 
doświadczenia psychologów dowodzą,. że stany przejściowe, to znaczy te 
partie sygnału, które odpowiadają przejściu między jedną głoską a następną 
lub poprzednią, bywają bardziej istotne dla zrozumienia analizowanej głoski, 
niż jej część stacjonarna. Dotyczy to głównie niektórych spółgłosek, które 
stają się niezrozumiałe dla człowieka, jeśli wysłuchuje się ich w izolacji, gdyż 
zasadnicze informacje potrzebne do ich identyfikacji mieszczą się w cha- 
rakterystycznych deformacjach sygnału samogłosek poprzedzających je lub 
następujących po nich. Co więcej, można przeprowadzić doświadczenie 
polegające na słuchaniu fragmentu sygnału akustycznego, z którego usu- 
nięto fragment odpowiadający badanej spółgłosce, pozostawiając stany 
przejściowe samogłosek poprzedzających i następujących po usuniętej 
głosce. Efekt jest zadziwiający: słuchacz „słyszy” i rozpoznaje nieistniejącą 
głoskę prawidłowo! Należy podkreślić, że nie ma możliwości domyślania 
się — na podstawie kontekstu — o jaką głoskę chodzi, gdyż badania tego 
typu prowadzi się z wykorzystaniem tzw. logatomów, to znaczy zestawień 
głosek pozbawionych sensu. 

Wniosek z przytoczonych rozważań jest tylko jeden. Analogowe metody 
wytwarzania sygnału mowy nie mają perspektyw. Będą istniały jeszcze przez 
jakiś czas w prostych systemach powiadamiających (zegarynka itp.), ale 
zapewne i tam wyprą je w końcu doskonalsze pod każdym względem sys- 
temy cyfrowe. Operując techniką cyfrową można dokonywać takich ma- 
nipulacji na zapamiętanych fragmentach sygnału mowy, których nigdy i przy 
użyciu żadnej aparatury analogowej nie uda się nawet w przybliżeniu na- 
śladować. O szczegółach odwzorowania sygnału mowy w systemie cyfro- 
wym, a także o operacjach, które można wykonywać na sygnale mowy 
dysponując systemem cyfrowym, będzie mowa w rozdz. 4, a także — w kon- 
tekście konkretnych zastosowań — w rozdz. 5 i 6. Teraz probłematyka 
cyfrowej reprezentacji sygnału — odtwarzanego lub syntetyzowanego — 


„przy tym bezustannie. technikom niepoprawne jego używanie), sami od około stu iat 
toczą spory na temat definicji tego pojęcia, nie mogąc zgodzić się na żadną z kilkudzie- 
sięciu będących w użyciu, opublikowanych i wielostronnie uzasadnionych propozycji. 
Pewien przegląd tego zagadnienia i związanej z nim literatury dokonany jest w referacie 
plenarnym XXII. Otwartego Seminarium z Akustyki (W. Jassem: Wstępne założenia 
akustycznej teorii fonemu. Materiały OSA'85, Kraków 1985, str. 61—64). W książce 
przyjęto ze względów praktycznych nazwę „„głoska”, niekiedy jednak będzie także mowa 
o fonemach traktowanych jako klasy głosek lub ich wzorce. Zwolennicy bardziej precy- 
zyjnych definicji muszą sami wybrać jedno z konkurujących określeń proponowanych 
przez lingwistów i dzielnie odpierać ataki zwolenników innych wyjaśnień tego terminu. 
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zostanie tyłko zasygnalizowana. Czasowy przebieg sygnału może być za- 
pisany w postaci ciągu wartości liczbowych, odpowiadających amplitudom 
sygnału mierzonym w ustalonych, zwykle jednakowo odległych od siebie 
momentach czasu. Mając przebieg czasowy możemy zawsze dokonać za- 
miany na wspomniany zbiór dyskretnych wartości liczbowych. Co więcej, 
jeśli tylko odstępy czasu między kolejnymi próbkami są dostatecznie małe, 
to sygnał cyfrowy mieści w sobie dokładnie tę samą informację, co sygnał 
oryginalny, gdyż możliwe jest całkowicie dokładne odtwarzanie sygnału 
analogowego z zarejestrowanego sygnału cyfrowego. Wszystkie wiążące się 
z tym uwarunkowania i wiadomości teoretyczne podano w p. 4.1. 
Cyfrowe metody odtwarzania mowy stawiają przed konstruktorami odpo- 
wiedniej aparatury problem sposobu reprezentacji sygnału mowy w systemie 
cyfrowym. Wspomniana wyżej metoda bezpośredniego zapisu przebiegu 
czasowego sygnału akustycznego w postaci cyfrowej jest najprostsza, ale 
niesłychanie pamięciochłonna. Można wykazać, że sygnał mowy odtwarza- 
ny z całą dokładnością reprezentuje strumień informacji 240 000 bit/s (bo- 
dów). Taki strumień informacji sprawia trudności przy przesyłaniu go 
w formie cyfrowej na większą odległość, a ponadto w błyskawicznym tempie 
wypełnia pamięć urządzenia przetwarzającego. Pamięć operacyjna najwięk- 
szych dostępnych w Polsce komputerów wystarczy przy tak rozrzutnym 
kodowaniu na zapamiętanie niecałej minuty transmisji sygnału, a pamięć 
przeciętnego mini- czy mikrokomputera (na przykład popularnych obecnie 
w kraju i za granicą komputerów osobistych) może pomieścić zaledwie około 
1 sekundę sygnału — i to pod warunkiem, że nie będzie w niej żadnych pro- 
gramów, które też zajmują miejsce. A jak tu operować sygnałem, łączyć go 
i przekształcać bez odpowiednich programów? 

Problem oszczędnego kodowania sygnału mowy jest więc centralnym zagad- 
nieniem warunkującym efektywność cyfrowego odtwarzania mowy. Różne 
systemy syntezy mowy rozwiązują to zagadnienie rozmaicie; sam problem 
jest zresztą nie taki nowy, jak się może wydawać, gdyż przed informatykami, 
chcącymi nauczyć mowy swoje komputery, borykali się z problemem zmniej- 
szenia informacyjnej objętości sygnału mowy specjaliści z zakresu teleko- 
munikacji, ponieważ przy przesyłaniu mowy na odległość także można od- 
nieść niebagatelne korzyści, jeśli się pasmo sygnału odpowiednio ograniczy. 
Do zagadnienia tego powrócimy w rozdz. 6. 

Obecnie omówimy pewien konkretny system oszczędnego kodowania syg- 
nału mowy w systemie cyfrowym, stosowany w komercyjnym systemie od- 
twarzania mowy firmy National Semiconductor. System ten, nazywany 
DIGITALKER, operuje całymi wyrazami zapisanymi w pamięci cyfrowej 
w tak zagęszczonej postaci, że pojedynczy układ scalony z pamięcią o po- 
jemności 128 kbit wystarcza do zapamiętania około 120 słów odpowiednio 
dobranych do zastosowania „„mówiącej końcówki** w systemie komputero- 
wym, w kasie sklepowej, w samochodzie lub w domu. Oczywiście odtwarza- 
nie sygnału mowy wymaga. odpowiedniej interpretacji zgromadzonych 
w pamięci zapisów, służy do tego specjalny scalony mikroprocesor nazywany 
SPC (ang. Speech Processor Chip), odczytujący zapisy w pamięci i na ich 
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podstawie generujący sygnał mowy. Jakość uzyskanej mowy jest zadowala- 
jąca, gdyż odpowiednie oprogramowanie procesora pozwała także na pewną 
modulację sygnału zarówno w zakresie tonacji, jak i natężenia. Pracę pro- 
cesora synchronizuje zegar kwarcowy. 

Problemem jest oczywiście sposób oszczędnego, upakowanego zapisu syg- 
nału w pamięci. W syntezatorze DIGITALKER redukcja informacyjnej 
objętości zapamiętanego i przystosowanego do odtworzenia sygnału mowy 
przebiega czteroetapowo. W pierwszej kolejności z zarejestrowanego i prze- 
znaczonego do odtworzenia sygnału wybiera się kilka najbardziej charak- 
terystycznych fragmentów. Wykorzystuje się przy tym znaną właściwość 
sygnału mowy, że prawie wszystkie głoski mają charakterystyczne przebiegi 
czasowe, których cykliczne powtarzanie może być subiektywnie ocenione 
jako ciągła artykulacja rozważanej głoski. Szczególnie łatwe jest wykrycie 
i wskazanie takich fragmentów w samogłoskach i w spółgłoskach szumo- 
wych. W innych głoskach zachodzi niekiedy konieczność wybrania wię- 
cej niż jednego fragmentu do zapamiętania, przy czym najtrudniejsze do 
odtwarzania spółgłoski plozyjne mają na tyle krótki czas trwania, że cały 
ich przebieg czasowy łącznie z fazą zwarcia musi być użyty jako wzorzec, 
bez konieczności powtarzania. Dzięki wybraniu wspomnianych charakterys- 
tycznych fragmentów sygnału i stosowaniu ich powtarzania (typowo oko- 
ło 5 do 15 powtórzeń zapamiętanego fragmentu imituje pojedynczą głoskę) 
można oszczędzić —- jak się oszacowuje — ponad 75%, pamięci, która by- 
łaby potrzebna przy przechowywaniu nie przetworzonego sygnału. W nie- 
których systemach to wystarcza. Na przykład, jeden ze znanych systemów 
syntezy mowy polskiej zakładał jedynie zapamiętywanie owych charakterys- 
tycznych fragmentów i ich cykliczne odtwarzanie zgodnie z założonym 
programem, dostarczając dobrej jakości mowy przy stosunkowo niewielkim 
zajęciu pamięci komputera. W systemie DIGITALKER zastosowano 
kolejne przekształcenie, powodujące dalszą, wydatną redukcję informacyjnej 
objętości sygnału. Wykorzystano mianowicie wymieniony przy omawianiu 
naturalnego procesu artykulacji fakt, że położenie i ruchy narządów arty- 
kulacyjnych kształtują głównie widmo sygnału mowy. Poza tym ucho lu- 
dzkie jest mało wrażliwe na wartości przesunięcia fazowego, zatem większość 
interesujących informacji jest zawartych w jego charakterystyce amplitu- 
dowo-częstotliwościowej, łatwej do uzyskania z zarejestrowanego przebiegu 
czasowego — na przykład na drodze obliczeniowo przeprowadzonej trans- 
formacji Fouriera. Wybierając zatem określony fragment sygnału mowy, 
będący „reprezentantem”” pewnej głoski (przy czym jego typowy czas trwa- 
nia odpowiada około 10 ms naturalnego trwania sygnału mowy i jest re- 
prezentowany w systemie przed dokonaniem dalszej redukcji przez 128 
próbek wartości chwilowych w jednakowych odległych momentach czasu) 
możemy, dokonać jego transformacji, otrzymując w wyniku 128 wartości 
amplitud sygnału dla wybranych 128 pasm częstotliwości. Na razie oszczęd- 
ności nie widać: było 128 liczb i jest nadal 128 — tyle że w pierwszym po- 
dejściu są to liczby zespolone, reprezentujące amplitudowe i fazowe skła- 
dowe widma. Możliwość redukcji informacji wynika dopiero z przeanalizo- 
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wania struktury tego widma. Po pierwsze jest ono symetryczne, wystarczy 
więc zapamiętanie jedynie połówki widma, bo druga jest możliwa do odtwo- 
rzenia na podstawie symetrii. Po drugie łatwo zauważyć, że składniki o du- 
żej amplitudzie grupują się (na ogół!) przy niskich częstotliwościach, wy- 
starczy więc dla odtworzenia sygnału brać pod uwagę jedynie centralną 
część widma. W praktyce zatem brana jest pod uwagę 1/4 widma, czyli 32 
próbki zamiast 128. W ten sposób uzyskuje się kolejne 75% oszczędności 
pamięci. 

W cęlu uzyskania dalszego ograniczenia informacyjnej objętości zapamięty- 
wanych danych wykorzystuje się modulację typu delta. Polega ona na tym, 
że zapamiętywane są w kolejnych próbkach przyrosty wartości sygnału 
(w rozważanym przypadku — widma), a nie same wartości. Ponieważ 
widmo nie zmienia się zbyt szybko, więc przyrosty wyrażają się mniejszymi 
wartościami niż same próbki. W ten sposób nie zyskuje się wprawdzie na 
liczbie próbek, która pozostaje taka sama, ale wartości do zapamiętania 
mieszczą się w mniejszym przedziale i mogą być reprezentowane mniejszą 
liczbą bitów. Cały ten złożony proces przedstawiono na rys. 2-40. Łatwo 
zauważyć, że zapamiętana forma sygnału silnie odbiega od jego rzeczywis- 
tego przebiegu i dlatego w procesie odtwarzania musi uczestniczyć specjalny 
procesor SPC, odtwarzający sygnał na podstawie szczególnego zapisu 
w pamięci. 


Czas 
pa zona R] 


sA Wybrony frogment 


Przebieg 
oryginalny 


Widmo częstotliwościowe 


Widmo po uproszczeniu i ograniczeniu 
| uwzględniona tylko połówka wyróżniona 
pogrubioną linią) 


Uwzględnione przy syniezie 
1/4 widme po modulacji delta 


1 32 64 96 128 
Numer próbki 


2-40. Zasada kompresji sygnału mowy, stosowana przy syntezie mowy w systemie DIGITALKER 


55 


2-41, Uproszczon: 


Schemat systemu odtwarzania przedstawiono w uproszczonej postaci na 
rys. 2-41. Centralną rolę odgrywa procesor SPC, do którego jest podawany 
początkowy adres obszaru w pamięci ROM, w którym jest umieszczony 
zapis potrzebnego komunikatu. Synteza może przebiegać na podstawie 
wzorców całych wypowiedzi zapisanych w wyżej omówiony oszczędny spo- 
sób w pamięci ROM lub może połegać na montażu wyrazów z zapisanych 


la 


struktura syntezatora 
mowy działającego 


według schematu 
systemu 
DIGITAŁKER. 


Upakowane wzorce 
w pamięci ROM, 


których objętość 
informacyjną 
zminimalizowano 


techniką przedstawioną 


na rysunku 2-40 
wymagają dla 
odtworzenia 


czasowego przebiegu Sygnały 
sygnału mowy użycia kodowe 
specjalnego procesora 

SPC 


Pamięć wzorców 
ROM 


elementów (głosek) z wykorzystaniem specjalnego programu generacji 
i dodatkowych informacji na temat czasu trwania poszczególnych elementów 
wypowiedzi i ich modulacji amplitudowych (akcent) i częstotliwościowych 
(intonacja). Problem, jaki przy tym powstaje, polega na zapewnieniu łagod- 
nego przejścia od generacji jednej głoski do generacji następnej. Stosunkowo 
prosty koncepcyjnie sposób polega na tym, aby w pewnym odcinku czasu 
od chwili 7, do chwili Tą określać wypadkowy sygnał U(1) jako sumę 
ważoną przebiegu czasowego głoski kończącej swoje brzmienie U;(£) i głos- 
ki pojawiającej się jako następna U>(t). W zapisie matematycznym operacja 
ta jest prosta: 


U(t) = U;(1) (i - | + Rim (2.48) 
1 


dla 7, £ t £ Tą. 
Rzeczywista realizacja tej koncepcji jest uciążliwa ze względu na koniecz- 
ność wykonywania mnożeń (dwu w każdym kroku czasowym), co w wa- 
runkach stosowania mikroprocesorów może prowadzić do trudności z pracą 
w czasie rzeczywistym. 

Podsumowując można więc stwierdzić, że przytoczona metoda dobrze na- 
daje się do stosowania przy ogtaniczonym i z góry ustalonym słowniku, 
który wówczas musi być w całości umieszczony w pamięci wzorców (na- 
turalnie w oszczędnej postaci). Przy próbach. zastosowania. omówionej me- 
tody odtwarzania do generacji dowolnych wypowiedzi albo trzeba godzić 
się na bardzo niską jakość odtwarzanej mowy, spowodowaną niedoskonałoś- 
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ciami procesu łączenia*” albo należy liczyć się z potrzebą zastosowania 
komputera o dużej mocy obliczeniowej. 

Znacznie korzystniejsze własności mają syntezatory parametryczne. Proces 
syntezy polega w nich na programowanym wybieraniu parametrów genera- 
tora sygnału, którego budowa w większym lub mniejszym stopniu jest 
wzorowana na schemacie i zasadach funkcjonowania omówionego wyżej 
traktu głosowego człowieka. Przykładem systemu tego rodzaju jest synteza- 
tor Votrax ŚC-01. Parametrami sygnału mowy, sterującymi generator, są 
tzw. formanty, to znaczy rezonanse powstające w narządach mowy i charak- 


2-42. Schemat syntezy 
mowy używany 

w systemie VOTRAX. 
Wzorce są w tym 
przypadku opisem 
reguł generacji 
dźwięku, a nie 
upakowanym zapisem 
czasowego przebiegu 
sygnału. Sercem układu 
jest sterowany 

cyfrowo system 


generujący, 

zawierający 

programowalne — 

generatory, filtry —— 

i elementy formujące 58 naty 
odowe 


obwiednię dźwięku 


SG-51 
Zespół generatorów 
i filtrów 


teryzujące się maksimami obwiedni widma sygnału emitowanego podczas 
naturalnej artykulacji. Zamiast więc generować czasowy przebieg sygnału 
mowy — co jak wskazano wyżej wymaga dużych ilości informacji — można 
generować sygnał o uproszczonym widmie, kształtowanym przez zespół 
przestrajanych generatorów i filtrów regulowanych pod względem często- 
tliwości środkowej i szerokości pasma. Korzysta się tu z faktu, że zmiany 
widma, wywołane ruchem narządów mowy i wynikającymi z tego zmianami 
geometrii traktu głosowego, przebiegają stosunkowo wolno i do ich śledze- 
nia wystarcza strumień informacji rzędu tysiąca bitów na sekundę — a więc 
wielokrotnie mniej niż w najbardziej nawet „upakowanych”” rozwiązaniach, 
w których sygnał jest odtwarzany z wzorca zapamiętanego w formie 
przebiegu czasowego. 

Kontrolowanie procesu generacji sygnału w przypadku odrębnego sterowa- 
nia każdego generatora i każdego filtru może być dość złożone i czaso- 
chłonne. Na szczęście nie wszystkie kombinacje parametrów układu synte- 
tyzującego są jednakowo prawdopodobne; przeciwnie — interesują nas wy- 
łącznie te, które odpowiadają konkretnym głoskom rozważanego języka**. 
*' Najczęściej w celu uniknięcia kłopotów na stykach głosek separuje się je sztucznie 
wstawianymi krótkimi pauzami (okresami ciszy), co pogarsza naturalność sygnału, ale 
ułatwia jego zrozumienie. 


** W przypadku systemu Votrax SC-01 chodzi oczywiście o język angielski, którego 
głoski różnią się znacznie od:fonemów języka polskiego! 
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Przyjmując (z pewnym nadmiarem wynikającym z konieczności uwzględnie- 
nia różnych wariantów tej samej głoski w różnych kontekstach), że będzie 
rozważany zestaw 64 dźwięków (w systemie Votrax 45 podstawowych form 
głosek, 16 dodatkowych brzmień specjalnych oraz 3 odcinki ciszy o różnej 
długości) możemy każdy z tych dźwięków zakodować za pomocą 6-bitowego 
kodu. Stosując mikroprocesor 8-bitowy pozostają jeszcze 2 bity, które 
w systemie Votrax służą do kodowania częstotliwości podstawowej każdego 
z dźwięków i dają możliwość swobodnego kształtowania intonacji wypo- 
wiedzi. 

Naturalnie w omawianym systemie występuje również problem zapewnienia 
łagodnego, płynnego przejścia od jednej głoski do drugiej. Układ syntezy 
musi zapewnić „„miękkie” przejście wartości parametrów, na podstawie 
których jest dokonywana synteza, od jednej wartości ustalonej do następ- 
nej. Układ musi ponadto uwzględniać fakt, że pewne przejścia — na przy- 
kład początek artykulacji głosek plozyjnych (takich jak p lub c) musi cha- 
rakteryzować się gwałtowną zmianą parametrów. Nie można więc ograni- 
czyć się do „wolno przestrajanych” generatorów i filtrów — układy formu- 
jące widmo muszą mieć możliwość szybkiej zmiany parametrów i zapewniać 
odpowiednią kontrolę programową procesu przejściowego. 

Struktura blokowa syntezatora jest dość prosta. W pamięci ROM są 
zgromadzone wzorce głosek, zawierające parametry powodujące przestro- 
jenie generatorów i filtrów w celu wygenerowania potrzebnego sygnału. 
Układ sterujący pamięcią wybiera z niej i przesyła do systemu generującego 
SG-01 kolejne elementy według reguł wynikających z syntetyzowanej wy- 
powiedzi. System generujący wytwarza sygnał będący złożeniem odpowied- 
nich częstotliwości, imitujący naturalną mowę. Sygnał musi być poddany 
procesowi wzmocnienia we wzmacniaczu akustycznym i moduł SC-01 za- 
pewnia wzmacniaczowi dodatkowy sygnał akustyczny pełniący rolę sprzę- 
żenia zwrotnego do większej stabilności generowanego sygnału. Cały układ 
jest synchronizowany zewnętrznym zegarem o częstotliwości 720 kHz, przy 
czym chcąc uzyskać efekt modulacji mowy (dla bardziej naturalnej into- 
nacji) trzeba ten zegar programowo przestrajać. 

Omówiony system Votrax leży w istocie na pograniczu między systemami 
odtwarzania mowy a systemami jej syntezy. Z punktu widzenia sposobu 
generacji sygnału można tu mówić o syntezie, gdy sterowane w sposób 
parametryczny generatory i filtry tworzą sygnał, a nie tylko go odtwarzają. 
Z punktu widzenia sterowania tym procesem mamy jednak do czynienia 
z procesem odtwarzania: pamięć ROM zawiera dla każdej wypowiedzi 
dokładny schemat sterowania, będący również (podobnie jak w systemie 
DIGITALKER i pokrewnych) — pewną formą zapisu oryginalnego sygna- 
łu, który należy odtworzyć. Naturalnie elastyczność systemu parametrycz- 
nego i jego możliwości są znacznie większe niż systemu odtwarzania prze- 
biegów czasowych, niemniej o prawdziwej syntezie trudno tutaj mówić. 
Syntezatorem z prawdziwego zdarzenia jest natomiast przyrząd firmy Texas 
Instruments nazywany Voice Synthesis Procesor (w skrócie VSP), opraco- 
wany w postaci układu scalonego dużej skali integracji. Na rynku (amery- 
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kańskim) są dostępne zarówno proste wersje syntezatora TMS 5100, stoso- 
wane głównie w zabawkach, jak i złożone kosztowne systemy TMS 5200 
wykorzystywane w systemach komputerowych. 

Struktura syntezatora TMS 5200 jest właściwie modelem traktu głosowego 
(rys. 2-43) realizowanym cyfrowo i sterowanym w sposób całkowicie para- 


Generator 
szumu 
s 

tonu 


b. 


2-43. Schemat parametrycznej syntezy mowy z wykorzystaniem procesora VSP, charakterystycznej 
między innymi dla generatorów firmy Texas Instruments. Taki system syntezy stawia najwyższe 
wymagania sprzętowi użytemu do generacji sygnału mowy, jest jednak najbardziej oszczędny, jeśli idzie 
o pojemność pamięci wymaganą do zapamiętania określonego odcinka czasowego sygnału mowy, 

a także dostarcza sygnału mowy o bardzo dobrej jakości 


metryczny. Sterowanie tym systemem odbywa się za pomocą 50-bitowych 
rozkazów „podawanych z częstotliwością 40 Hz, a więc bardzo wolno. Do 
sterowania syntezatora zaprojektowano specjalną pamięć o dużej pojemności 
(zestaw 16 układów TMS 6100 może pomieścić do 30 minut nieprzerwanej 
rozmowy) i małej szybkości działania — układ scalony ROM TMS 6100. 
Układ syntezatora obejmuje: generatory tonu krtaniowego i szumu zrealizo- 
wane cyfrowo i sterowane (przestrajane) za pomocą pierwszych 6 bitów 
słowa rozkazowego, przełącznik „ton/szum” ustawiający jeden z dwu dos- 
tępnych generatorów (do jego kontroli służy kolejny, siódmy bit słowa 
rozkazowego), regulowany wzmacniacz określający jeden z 15 możli- 
wych poziomów głośności dźwięku (kolejne 4 bity słowa rozkazowego), 
wreszcie 10 filtrów o regulowanych charakterystykach, modelujących trans- 
mitancję toru głosowego, do których sterowania wykorzystuje się pozostałe 
bity słowa rozkazowego (zależnie od wpływu na brzmienie sygnału po- 
szczególne filtry są sterowane przy użyciu od 3 do 5 bitów). W celu ograni- 
czenia wpływu małej częstotliwości aktualizacji danych (40 Hz) na jakość 
sygnału mowy zastosowano technikę interpolacyjną do zapewnienia płyn- 
nego procesu przechodzenia od jednych wartości danych do kolejno na- 
pływających. Interpolacja ta opiera się na technice predykcji liniowej używa- 
nej w analizie mowy do jej opisu i rozpoznawania. Jest to technika (patrz 
p. 4.5) wymagająca dużej mocy obliczeniowej (wystarczy powiedzieć, że 
realizacja 10 filtrów syntezatora FMS 5200 wymaga wykonania 200 000 
dodawań i tyluż operacji mnożenia w ciągu jednej sekundy), ale dająca 
najlepsze rezultaty, jeśli idzie o płynność i naturalność sygnału mowy. Sygnał 
wyjściowy z syntezatora ma postać cyfrową i jest zbiorem słów 8-bitowych 
podawanych z częstotliwością 8 kHz, Pozwala to po zastosowaniu przetwor- 
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nika cyfrowo-analogowego na uzyskanie dobrej jakości sygnału mowy 
© parametrach lepszych niż w telefonii. 

Syntezator TMS 5200 ma wiele dalszych udoskonaleń, pozwałających na 
jego wygodniejsze i bardziej oszczędne — z punktu widzenia systemu steru- 
jącego — wykorzystanie. W szczególności programowanie powtarzania 
pewnych sekwencji dźwiękowych, a także oszczędne kodowanie szeregu 
dźwięków (na przykład głosek szumowych, w których nie trzeba przestrajać 
generatora tonów ani tak dokładnie kształtować charakterystyki traktu 
głosowego) pozwala zaoszczędzić pamięć i upakować znacznie dłuższe frag- 
menty sygnału, niżby wynikało z przemnożenia częstotliwości 40 Hz przez 
długość słowa (50 bitów). Ponadto dla wygody sterowania pracą syntezatora 
dostępna jest „„biblioteka”” programów sterujących artykulacją 128 typowych 
odmian głosek, a także gotowe programy tworzenia typowych komunika- 
tów. 

Przytoczone rozwiązania systemów syntezy mowy nałeży traktować jako 
przykładowe. Syntezatory o różnych parametrach budują firmy: AMI, 
General Instruments, Hitachi, Intel, ITT, Matsushita, Philips, TSI i inne. 
Znane są też liczne i udane próby konstruowania systemów syntezy mowy 
polskiej, poczynając od syntezatorów parametrycznych, jak np. Synfor 
profesora Kacprowskiego, a na badaniach Politechniki Wrocławskiej koń- 
cząc. Nie ma możliwości ani celu omawiania wszystkich istniejących roz- 
wiązań, szczególnie że podany wyżej przegląd podawał charakterystyczne 
cechy, wspólne dla większości konstrukcji. Ważny jest właściwie jeden 
wniosek. Proces generacji mowy jest na tyle dobrze znany, że można do jego 
modełowania użyć urządzeń technicznych zapewniających przy rozsądnych 
kosztach dobrą jakość syntetyzowanego dźwięku. Innymi słowy droga 
porozumiewania się maszyny z człowiekiem za pomocą głosu jest otwarta. 


3.1. 


Percepcja mowy 


Wprowadzenie 


Zagadnienie percepcji mowy jest znacznie bardziej złożonym problemem 
niż jej artykulacja i to zarówno z punktu widzenia opisu naturalnego anali- 
zatora słuchowego człowieka, jak i w zakresie technicznych systemów roz- 
poznających mowę. W rozdziale będą przedstawione wybrane elementy 
opisu struktury i funkcji ucha i systemu nerwowego analizującego dźwięki 
mowy, przy czym podobnie jak dla systemu artykulacji podstawą rozważań 
będzie model matematyczny. Wzmiankowane będą także systemy technicz- 
ne służące do automatycznego rozpoznawania mowy, z tym że ten ostatni 
probłem znacznie szerzej będzie przedstawiony w rozdz. 6. 

Złożoność zadania rozpoznawania mowy wynika — niezależnie od tego, 
czy rozpoznającym obiektem jest mózg człowieka, czy automat — z kilku 
podstawowych własności sygnału mowy jako nośnika informacji. Przedsta- 
wiona dalej łista problemów, z którymi trzeba się uporać budując system 
rozpoznawania mowy, pozwoli własności te przeanalizować w sposób sys- 
tematyczny i uporządkowany, ułatwi rozumienie metod rozpoznawania 
mowy i wyjaśni, dlaczego tak trudno zbudować naprawdę efektywne me- 
tody kompresji informacyjnego nadmiaru sygnału mowy w telekomunikacji. 
Lista ta jest równocześnie wykazem problemów badawczych zarówno dla 
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biologów studiujących funkcjonowanie analizatora słuchowego człowieka, 
jak i dla inżynierów dążących do skonstruowania systemu technicznego 
receptora mowy. 

Przystępując do budowy wspomnianej listy warto spojrzeć na proces roz- 
poznawania mowy z punktu widzenia teorii systemów i wyróżnić w nim 
kilka hierarchicznie powiązanych poziomów (rys. 3-1). Na podstawowym, 
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akustycznym poziomie pozyskiwana jest informacja o rozpoznawanym 
sygnale dźwiękowym. Powstają przy tym między innymi następujące prob- 
lemy: 

1. W jakiej postaci należy sygnał wprowadzać do systemu? 

2. Jeśli sygnał ma być wprowadzony bezpośrednio w formie przebiegu cza- 
sowego, to jak szerokie powinno być rozważane pasmo częstotliwości 
i wynikająca z niego częstotliwość próbkowania sygnału? Z jaką dokład 
nością odwzorowywać amplitudę sygnału, czy stosować równomierny, czy 
poddany kompresji rozkład poziomów dyskretyzacji amplitud? Jaką za- 
stosować technikę kodowania? Czy i w jaki sposób dokonywać preemfazy 
sygnału? itp. 

3. Jeśli sygnał jest wprowadzany w postaci przetworzonej, to jaka ma być 
reguła tego przetwarzania, aby nie tracić istotnej informacji, a równocześ- 
nie ograniczyć informacyjną pojemność sygnału, utrudniającą jego zmiesz- 
czenie w pamięci systemu rozpoznającego lub/i transmisję przez kanały 
telekomunikacyjne? 

4. Jeśli przetwarzaniem, o którym mowa w punkcie 3, jest transformacja 
widmowa, to jak jej dokonywać (analogowo, z wykorzystaniem filtrów czy 
cyfrowo za pomocą algorytmu FFT)? 

5. Ile powinno być i jak winny być rozmieszczone wyróżnione pasma często- 
tliwości? 

6. Jak dobrać czas całkowania sygnału w poszczególnych pasmach (stało 
czasowe demodulatorów za odpowiednimi filtrami)? 

7. Z jaką częstotliwością próbkować sygnały na wyjściach poszczególnych 
filtrów? 


62 


Dyskusja niektórych spośród wymienionych wcześniej problemów przepro- 
wadzona będzie w rozdz. 4, w chwili obecnej należało je tylko wymienić, 
aby mieć świadomość, na jakie aspekty zwracać uwagę przy studiowaniu 
omawianych w tym rozdziale biologicznych i technicznych systemów ana- 
lizy i percepcji mowy. 

Oczywiście, zgodnie ze schematem podanym na rysunku 3-1, analiza akus- 
tyczna jest zaledwie wstępnym etapem w hierarchicznej strukturze przetwa- 
rzania sygnału mowy, która towarzyszy każdej próbie jej rozpoznawania. 
Następny, parametryczny poziom jest źródłem kolejnych problemów. Jego 
zadaniem jest opisanie sygnału mowy przez określenie jego parametrów, 
które pozwolą na jednoznaczną i pewną jego identyfikację, a równocześnie 
będą zawierać możliwie mało zbędnej (to znaczy nieprzydatnej przy roz- 
poznawaniu) informacji. Warto podkreślić, że omawiany poziom ma klu- 
czowe znaczenie dla efektywności procesu rozpoznawania, gdyż wybór nie- 
właściwych cech spowoduje nieuchronnie bądź nieodwracalną stratę nie- 
zbędnych do rozpoznawania informacji, bądź w zbyt małym stopniu ochroni 
nas przed „,zalewem” informacji zbytecznych. Niestety, ani teoria rozpozna- 
wania, ani akustyka mowy nie dostarczają wystarczających przesłanek do 
wyboru najwłaściwszego zestawu cech. Z tego między innymi powodu tak 
wiele zainteresowania (i miejsca w książce) zajmuje problematyka modeło- 
wania procesu artykulacji mowy i badania nad naturalną percepcją mowy. 
Śledząc sterowanie procesu artykulacji oczekujemy bowiem odpowiedzi na 
pytanie, które własności sygnału są świadomie kształtowane, a które są wy” 
nikiem zbiegu okoliczności. Podobnie analizująć proces rozpoznawania 
mowy przez ucho i mózg człowieka możemy odnotować własności sygnału, 
które w procesie tym odgrywają pierwszoplanową rolę, a następnie możemy 
oczekiwać, że oparcie technicznego systemu rozpoznawania na podobnych 
cechach jest racjonalnie uzasadnione. Istnieją bowiem przesłanki świadczące. 
że sygnał mowy w procesie swego formowania został tak ukształtowany, by 
optymalnie odpowiadał możliwościom naszego systemu percepcyjnego. 
Wszelkie dźwięki, jakie może wydawać narząd mowy, które jednak nie 
prowadzą do poprawnej percepcji przekazywanych treści, są z mowy elimi- 
nowane. Warto zwrócić uwagę, że przedstawiona tu teza jest odmienna od 
rozpowszechnionego i łatwego do zakwestionowania poglądu, że to słuch 
człowieka jest optymalnie dostosowany do odbioru mowy. Argumentacja 
na rzecz tezy o dopasowaniu słuchu do mowy, a nie odwrotnie, jest proble- 
matyczna, Zagadnienie to staje się zupełnie jasne, jeśli odpowie się na pod- 
stawowe pytanie, co było wcześniej: słuch z jego własnościami, czy mowa 
z jej parametrami potrzebnymi przy rozpoznawaniu. Na rysunku 3-2 poka- 
zano położenie amplitudowo-częstotliwościowych charakterystyk sygnału 
mowy na tle obszaru najlepszego słyszenia człowieka. 

Jak wynika 'z przedstawionych uwag, na parametrycznym poziomie procesu 
rozpoznawania mowy rodzą się kolejne problemy i kolejne trudności. Oto 
niektóre z nich*: 


*) Zachowano ciągłą numerację rozważanych zagadnień badawczych dla zaznaczenia 
faktu, że stanowią one w istocie jedną całość a podział na poziomy ma'charakter umowny. 
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8. Jakie parametry wybrać, aby odpowiadały wymaganiom minimalnej 
reprezentacji sygnału i jego pewnej identyfikacji? 

9. Jak wyznaczać wybrane parametry opierając się na posiadanych środ- 
kach technicznych przyjętej na poprzednim poziomie reprezentacji sygnału 
i w warunkach obecności zakłóceń zniekształcających obraz sygnału? 


3-2, Charakterystyki 
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systemu słuchowego 
człowieka 
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10. Czy parametry wyznaczone w procesie opisu mowy mają własności 
wymagane przez procedury identyfikacji elementów wypowiedzi, czy też 
należy je dodatkowo poddać transformacji? 

11. Jakiego rodzaju transformacja parametrów (jeśli uznano celowość jej 
stosowania) może zapewnić optymalną geometrię przestrzeni obiektów 
z punktu widzenia metod rozpoznawania? 

12. W jaki sposób i z użyciem jakich środków technicznych dokonywać 
transformacji parametrów ? W szczególności, czy wykorzystywać obliczenia 
realizowane techniką cyfrową w głównym komputerze, czy też raczej stoso- 
wać układy przekształcające, realizowane analogowo lub z użyciem specjali- 
zowanych procesorów? 

13. Czy wyniki procesów wydobywania parametrów (i ewentualnego ich 
transformowania) zapisywać w pamięci urządzenia rozpoznającego w for- 
mie bezpośredniej (łatwiejszej do dalszych obliczeń), czy w formie zakodo- 
wanej, wykorzystując metody przystosowane do maksymalnej oszczędności 
miejsca w pamięci operacyjnej komputera? 

Rozwiązanie przytoczonych problemów (lub —co się niestety częściej 
praktykuje — arbitralne podjęcie potrzebnych decyzji), nie kończy prezen- 
towanej listy trudności, które trzeba pokonać, lecz prowadzi do kolejnych 
problemów, związanych tym razem z trzecim poziomem systemu rozpozna- 
wania mowy — z systemem rozpoznawania elementów sygnału. 

Sytuacja, która stanowi punkt wyjścia do rozważań na tym poziomie, może 
być scharakteryzowana w sposób następujący. Sygnał mowy został już za- 
rejestrowany i przetworzony do postaci zbioru odpowiednich parametrów 
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3.2. 


3.2.1. 


(pierwotnych lub przetransformowanych). Ponieważ jednak sygnał zmienia 
się, więc wyliczone cechy nie pozostają stałe, lecz zmieniają się w czasie, 
tworząc w przestrzeni parametrów złożone trajektorie. Trajektorie takie 
mogą być rozpoznawane w całości, tworząc system rozpoznawania komplet- 
nych wypowiedzi, jednak znacznie bardziej celowe jest rozpoznawanie ele- 
mentów wypowiedzi i składanie całości z poszczególnych rozpoznanych 
segmentów. 

Systemy całościowe” obecnie są stosowane do rozpoznawania ograniczo- 
nego słownika, jedynie w tych systemach komercyjnych, w których główną 
rolę odgrywa szybkość działania, a nie wysoka jakość procesu rozpoznawa- 
nia i uniwersalność zastosowań. Z tego względu w dalszych rozważaniach 
skupimy się na omawianiu systemów działających na zasadzie etapowej: 
najpierw rozpoznawane są oddzielne segmenty, a dopiero później ich ciągi 
są identyfikowane z określonymi wypowiedziami, 

Przy takim postawieniu zadania możliwe jest jednak wyróżnienie dalszych 
problemów, z których niektóre (numerując je kolejno dalej) wyszczególnio- 
no niżej: . 

14. Jakie segmenty mają być podstawą rozpoznawania (wyrazy, sylaby, 
głoski, tzw. mikrofonemy — patrz rozdz. 5 — pojedyncze próbki czasowe 
sygnału)? 

15. Jak dokonać podziału ciągłego sygnału mowy na wskazane segmenty? 
16. Jakimi metodami rozpoznawać wydzielone segmenty? (W teorii roz- 
poznawania obrazów istnieje kilkadziesiąt różnych możliwych algorytmów, 
a wiele spośród tych algorytmów ma swoje odmiany — por. rozdz. 5). 

17. Jakimi metodami scalać segmenty w całe wypowiedzi? 

18. Jak korygować błędy rozpoznawania? 

Odpowiedź na przytoczone pytania daje w efekcie konkretną realizację 
systemu rozpoznawania wypowiedzi na płaszczyźnie leksykalnej (identyfi- 
kacja elementów słownika). Problem rozpoznawania mowy na tym jednak 
się nie kończy. Pozostaje analiza syntaktyczna wypowiedzi i jej semantyczna 
identyfikacja, aby ustalić sens wypowiedzianego polecenia i adekwatnie 
do niego działać (por. rozdz. 5). 


"Zbiorczy model niższych pięter systemu 
słuchowego człowieka 


Wstęp 


W stosunkowo licznej literaturze dotyczącej prób modelowania systemu 
słuchowego człowieka przeważają publikacje dotyczące analizy funkcjono- 
wania tego systemu, głównie ucha wewnętrznego i narządu Cortiego, a także 
wybranych fragmentów niższych pięter części nerwowej tego systemu. 
W dalszym rozdziale opisano strukturę modelu zbiorczego, obejmującego 
całość mechanicznej składowej systemu oraz niższe piętra (do nucleus co- 
chlearis włącznie) części nerwowej. Model ten jest oparty na wynikach 
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3.2.2. 


3.2.3. 


wcześniejszych opracowań dotyczących prób modelowania fragmentów 
systemu i poszukiwań optymalnego (z punktu widzenia symulacji kompute- 
rowej) modelu poszczególnych elementów systemu: ucha zewnętrznego 
i środkowego, błony podstawowej ucha wewnętrznego, komórek rzęsko- 
wych narządu Cortiego, spiro- i ortoneuronów zwoju spiralnego, komórek 
nerwowych tworzących jądra ślimakowe oraz hipotetycznej struktury sieci 
neuronowej jąder ślimakowych, spełniającej założoną funkcję „„wyostrza- 
nia” (polepszania selektywności). Ma on na celu sprawdzenie współdziałania 
badanych uprzednio oddzielnie fragmentów systemu. Model oprogramo- 
wano w postaci pakietu programów symulacyjnych i pomocniczych (prze- 
znaczonych głównie do graficznej prezentacji wyników za pomocą plottera 
Calcomp) w językach MIMIC i FORTRAN EXTENDED i badano z wy- 
korzystaniem komputera Cyber 72. Wszystkie prezentowane w tym roz- 
dziale wykresy pochodzą z wyników symulacji i zostały wykonane za po- 
mocą wspomnianego plottera. 


Założenia i ograniczenia przyjęte przy, budowie modelu 


System słuchowy człowieka, drugi pod względem złożoności po systemie 
analizatora wzrokowego, jest zbyt skomplikowany i zbyt mało poznany, 
aby mógł być przedmiotem modelowania uwzględniającego wszystkie aspek- 
ty jego działania. Przystępując do budowy modelu trzeba więc ograniczyć 
zakres rozważanych zjawisk, świadomie rezygnując z części znanych faktów 
na rzecz dostosowania go do założonego celu. W przypadku omawianego 
systemu słuchowego celem modelowania jest poznanie procesów, przetwa- 
rzania i redukcji ilości informacji, zachodzących w systemie słuchowym 
w celu wykorzystania ich przy budowie automatycznych urządzeń rozpo- 
znających mowę. Z tego powodu skupiono uwagę wyłącznie na przekazy- 
waniu informacji dźwiękowej pomijając modelowanie wszystkich innych 
zjawisk związanych z funkcjonowaniem systemu słuchowego, a także brano 
pod uwagę wyłącznie drogi aferentne, prowadzące od ucha do mózgu, po- 
mijając symulowanie funkcji dróg aferentnych, głównie regulacyjnych 
(m.in. pominięto w modelu funkcje mięśni napinacza błony bębenkowej 
oraz strzemiączkowego) oraz zrezygnowano z modelowania funkcji (słabo 
zresztą znanych) autonomicznego systemu nerwowego, którego zakończenia 
synaptyczne w komórkach rzęskowych ucha wewnętrznego wydają się od- 
grywać istotną rolę adaptacyjną. 


Struktura modelu 


Na rysunku 3-3 przedstawiono budowę części mechanicznej systemu słucho- 
wego, na rys. 3-4 — schemat powiązań w obrębie części nerwowej tego 
systemu, a na rys. 3-5 — powiązania między strukturą omawianego modelu 
a przedstawioną w uproszczeniu budową systemu słuchowego. 
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Poddawaną modelowaniu część systemu słuchowego można rozpatrywać 
jako parę 

S. = ĆSm Sx) (3.1) 
gdzie S,, jest częścią mechaniczną, a S, częścią nerwową systemu. System 
realizuje odwzorowanie 

P.:p > Ny (3.2) 
gdzie p c ET jest zbiorem funkcji czasu, reprezentujących przebiegi ciśnie- 
nia akustycznego na zewnątrz przewodu słuchowego zewnętrznego, a N, = 
= XN*T jest dynamicznym rozkładem pobudzeń neuronów ostatniej 
warstwy jąder ślimakowych (ostatniego uwzględnionego w modelu ele- 
mentu drogi nerwowej). 
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Użyte w przytoczonych określeniach zbiory scharakteryzować można w na- 
stępujący sposób. Zbiór chwil czasu 7 = £t: teza t > 0), zbiór chwilo- 
wych wartości ciśnienia akustycznego E = (e:ee Ra O0<ey<e<E,), 
zbiór chwilowych wartości pobudzeń neuronów (które można utożsamiać 
z chwilową częstotliwością impulsów w ustalonym punkcie aksonu) 


CORTEX 


ŚM ŚW 


pz maa m m | 0-1 — ON m 


3-5. Powiązanie elementów rzeczywistej struktury analizatora słuchowego i omawianych w książce 
elementów jego modelu. Model nie obejmuje wszystkich elementów rzeczywistego systemu. 
Uzupełnieniem modelu jest generator, wykorzystywany do badania jego własności; generator podobnie 
jak pozostałe elementy modelu jest realizowany w postaci odpowiedniego modułu programu 
symulacyjnego dla komputera. Opis pokazanych na rysunku bloków będzie sukcesywnie wprowadzany 
w kolejnych punktach 


X=lx; xEMBN0< x<X xy) oraz zbiór numerów komórek nerwowych 
(w pewnej arbitralnie przyjętej, ale ustalonej numeracji) New. 
Rozważany model systemu realizuje odwzorowanie 

g>:p* > N (3.3) 
przy czym (pomijając efekt kwantowania zbioru liczb rzeczywistych wy- 
nikający ze skończonej długości komórki pamięci używanego komputera) 
możemy zapisać: p* c ET* oraz Nę=x"**T, gdzie 7* =(n:n€ 
EM And € TAA e Ty jest zbiorem numerów równoodległych chwil czaso- 
wych (model jest typu synchronicznego), zaś N* = N jest zbiorem numerów 
nielicznych wybranych komórek nerwowych, których działanie jest przed- 
miotem symulacji. Różnica między odwzorowaniami g, i g$ nie ogranicza 
się wyłącznie do odmiennego charakteru zbiorów p i p* oraz N,i Nę, 
gdyż model odwzorowuje jedynie wybrane funkcje oryginału. 
Przyjmując określony funkcjonał Q: RTxR" > R można dla każdego 
e(t)ep zapisać implikację: 

Qle(t), e*(7)] < e, » A Qlx(t, 5), x*(7,5)] < 62 (3.4) 


$6N* 
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gdzie e, i ez są ustalonymi wartościami. Zgodnie z podziałem anatomicz- 
nym systemu funkcję p, można przedstawić jako złożenie szeregu odwzoro- 
wań. Z zależności (3.1) wynika, że 
Ps = Pa" Pm 3.5) 
gdzie pm: p z, zaś p: z > Ny. 
Zbiór z = YĘ*T reprezentuje drgania błony podstawnej ucha wewnętrznego, 
będące funkcją czasu 7'i odległości rozważanego punktu błony od helikotre- 
my L=f.0<I< IA le). Zbiór wielkości wychyleń rozważanych 
punktów błony Y, = $ys: |Ys| 4 sm A J, 68) ma podobną charakterystykę 
jak zbiory Y (chwilowych wartości wychyleń centralnego punktu błony bę- 
benkowej) oraz Y,„ (chwilowych wartości wychyleń podstawy strzemiączka 
w okienku owalnym ślimaka), przy czym różnią się jedynie ograniczenia 
amplitud; ym > Vwm > Jsm. W modelu zbiór zjest zastąpiony zbiorem z* c 
«= YN**T*, Należy zwrócić uwagę, że zbiór N* stanowiący dyskretną wersję 
zbioru ciągłego 2. jest identyczny ze zbiorem N* występującym w definicji N,. 
Jest to bardzo istotne ograniczenie modelu, w ogromnym stopniu upraszcza- 
jące konstrukcję odwzorowania ,, będącego modelowym odwzorowaniem 
funkcji nerwowej części systemu ,. 
Odwzorowania , oraz p, mają złożony charakter; dla ich uproszczenia 
dokonano ich dalszej dekompozycji opierając się na kryteriach anatomicz- 
nych 
Pm = Po' Pk” Pr' Pr (3.6) 
gdzie: 
P::P — Pw 
pw SET jest zbiorem czasowych przebiegów ciśnienia akustycz- 
nego na wysokości błony bębenkowej w głębi prze- 
wodu słuchowego wewnętrznego, 
s: Pw > W 
wc Y” jest zbiorem przebiegów czasowych drgań błony bę- 
benkowej, 
Pk W Wy 
w„ = YZ jest zbiorem chwilowych przebiegów drgań podstawy 
strzemiączka ucha środkowego w okienku owalnym śli- 
maka, 
PorWw > Z 
Identyfikując poszczególne odwzorowania z odpowiednimi elementami ana- 
tomicznymi systemu słuchowego możemy stwierdzić, że p, odpowiada 
funkcjom ucha zewnętrzr :go, p, — błony bębenkowej, ga — systemu kos- 
teczek słuchowych ucha ś odkowego zaś p, — ucha wewnętrznego, a głów- 
nie błony podstawowej : limaka. Realizacja poszczególnych odwzorowań 
w modelu wprowadza dy skretyzację zbioru T' do postaci T* oraz wymaga 
uproszczenia odpowiednich zależności do postaci nadającej się do modelo- 
wania. Wydaje się, że najbardziej istotne uproszczenia są przy tym wpro- 
wadzane do odwzorowania g%. 
Analogicznie do pódziału odwzorowania g,, jest prowadzona dekompozycja 
odwzorowania ©, na elementy odpowiadające kolejno warstwie receptorów 
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(komórek rzęskowych) ©,, spiro- i ortoneuronów zwoju spiralnego Pa 
oraz neuronów jąder ślimakowych g,: 


Pn = Pi" Pa! Pr (3.7) 
gdzie: 
Pr:z>N, 
N,G XN*T jest zbiorem dynamicznych rozkładów pobudzeń na 
poszczególnych receptorach, 
Pa: N, > Ną 
N,GXN*T jest zbiorem dynamicznych rozkładów pobudzeń ne- 
uronów zwoju spiralnego. 
p;.iNą > Nk 
Realizacja tych odwzorowań w modelu sprowadza się, obok dyskretyzacji 
czasu, do wprowadzenia we wszystkich rozważanych elementach drogi słu- 
chowej tej samej liczby tak samo ponumerowanych elementów symulują- 
cych funkcjonowanie komórek nerwowych i receptorowych. Liczba ta, 
wynosząca w konkretnym modelu 30, jest znacznie mniejsza od liczebności 
odpowiednich zbiorów w rzeczywistym obiekcie. Jest to kolejne, bardzo 
istotne ograniczenie modelu. 


Model części mechanicznej systemu słuchowego 


Omawiając w niniejszym punkcie poszczególne wymienione wyżej odwzoro- 
wania będziemy stosować dla uproszczenia notacji oraz zwiększenia czytel- 
ności zapis operatorowy Laplace'a (dotyczy to odwzorowań składających 
się na ©,„) i będziemy przytaczać od razu transmitancje odpowiednich czło- 
nów (przy założeniu ich liniowości). Innymi słowy opisując dowolne od- 
wzorowanie p: a — b, gdzie a © u”, zaśb c v”, zapisywać je będziemy jako 
$ = GG) -5. „gdzie: A c U5, BC VS, S=fse%). Zależności między 
ai A oraz bi B określa znany wzór całkowy Laplace'a: 


4(5) = | a(ne""ai 
0 


Omawiając rolę i działanie poszczególnych fragmentów części mechanicznej 
systemu słuchowego należy pamiętać, że jego roła w całości analizatora jest 
pomocnicza. Wspomniane elementy są konieczne ze względu na funkcjo- 
nowanie całego systemu, jednak z punktu widzenia procesów przetwarzania 
sygnałów wprowadzają zniekształcenia, deformując między innymi widmo 
podlegającego analizie dźwięku. Ucho zewnętrzne, reprezentowane w mo- 
delu przez odwzorowanie g,, to małżowina uszna wraz z przewodem słucho- 
wym zewnętrznym, tworzące razem rodzaj elastycznej tuby, wprowadzającej 
dźwięk z otoczenia do błony bębenkowej. U wielu zwierząt jedną z czynności 
wskazanego układu jest polepszenie kierunkowych charakterystyk słuchu; 
dotyczy to zwłaszcza tych ssaków, u których małżowina uszna ma duże 
rozmiary i jest ruchoma. U człowieka funkcja ta ma znaczenie szczątkowe. 
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Zmiany poziomu sygnału, spowodowane kierunkiem jego docierania w sto- 
sunku do małżowiny usznej nie przekraczają kilku decybeli, są więc mało 
przydatne przy lokalizacji źródła dźwięku*. Ważniejsza jest rola przewodu 
słuchowego zewnętrznego polegająca na ochronie delikatnej i łatwej do 
uszkodzenia błony bębenkowej w głębi wąskiego kanału, który dodatkowo 
zapewnia niezbędny dla pracy błony „mikroklimat” (stabilna temperatura 
i wilgotność). Niestety, ceną za ten komfort jest deformacja struktury 
częstotliwościowej sygnału, gdyż kanał słuchowy jest rezonatorem. 

Jeszcze bardziej skomplikowane jest uwzględnianie własności ucha środko- 
wego. Zespół kosteczek słuchowych: młoteczek, kowadełko i strzemiączko 
przekazuje drgania błony bębenkowej do okienka owalnego ślimaka, two- 
rząc złożony układ kinematyczny o wielu stopniach swobody i skompliko- 
wanych własnościach dynamicznych. Rola tego układu sprowadza się do 
dopasowania impedancji środowiska, z którego fala dźwiękowa nadchodzi, 
do impedancji środowiska, w którym fala dźwiękowa będzie się dalej 
rozprzestrzeniać. U zwierząt żyjących w wodzie problem ten nie występuje, 
gdyż impedancja akustyczna płynów wypełniających ich ucho wewnętrzne 
jest praktycznie taka sama, jak impedancja środowiska. Z tego powodu 
narządy słuchu tych zwierząt są bardzo uproszczone, a nawet bywają 
zredukowane do postaci receptorów skórnych. Natomiast u człowieka, 
podobnie jak u większości*** zwierząt lądowych, konieczne jest dopasowanie 
warunków propagacji fali dźwiękowej w płynie wypełniającym ślimak ucha 
wewnętrznego do warunków rozchodzenia się dźwięków w powietrzu. 
Energia fali powinna być przekazana z jednego ośrodka do drugiego po- 
mimo drastycznych różnic gęstości, sprężystości, tłumienności i bezwład- 
ności obydwu wymienionych środowisk. Brak takiego dopasowania powo- 
duje, że fala dźwiękowa rozchodząca się w jednym ze wskazanych środowisk 
nie może przedostać się do drugiego, gdyż ulega na ich granicy niemal 
100% odbiciu. Jest to między innymi powód rozpowszechnionego błędnego 
mniemania o braku możliwości wydawania dźwięków przez ryby i o ciszy 
głębi oceanicznych. 

Upośledzenie mechanizmów dopasowania struktury ucha środkowego po- 
woduje przeciętne podwyższenie progu słyszalności o ponad 40 dB, co jest 
równoważne niemal całkowitej głuchocie. Dopasowanie impedancji za- 
chodzi z jednej strony w przekładni mechanicznej, gdyż praca kosteczek 
słuchowych jako systemu dźwigni powoduje ok. 8-krotne zwiększenie 
ciśnienia akustycznego, z drugiej strony ze względu na stosunek powierzchni 
błony bębenkowej i błonki zamykającej okienko owalne ślimaka ciśnienie 
to zwiększa się dodatkowo w stosunku ok. 1:15. Łącznie oba mechanizmy 
zwiększają ciśnienie akustyczne w perylimfie ślimaka w.stosunku do ciśnie- 
nia w przewodzie słuchowym zewnętrznym w stosunku 1: 100, zmniejszając 
oczywiście w identycznej proporcji prędkość objętościową. Układ, o którym 
* Lokalizacja ta przebiega u człowieka opierając się na słyszeniu dwuusznym, na pod- 
stawie różnic fazowych sygnałów. 

**> Wyjątek stanowią owady, których narządy słuchu (rozmieszczone u różnych gatun- 


ków w najbardziej nieoczekiwanych miejscach na głowie, korpusie i odnóżach) są zazwy- 
czaj przetwornikami akcelerometrycznymi pracującymi bez przetwarzania impedancji. 
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mowa, jest więc istotnie biernym systemem dopasowania impedancji, a nie 
aktywnym systemem zwiększającym moc sygnału. 

Układ ucha środkowego ma ;jeszcze wiele własności, o których można tu 
jedynie skrótowo wspomnieć. I tak za pomocą mięśni: napinacza błony bę- 
benkowej i strzemięczkowego możliwe jest takie wpływanie na pracę syste- 
mu, by nadchodząca fala dźwiękowa była tłumiona — w stopniu potrzeb- 
nym do adaptacji słuchu do dźwięków o dużym poziomie natężenia, Tylko 
dzięki temu mechanizmowi słuch może pokrywać swoim zakresem czułości 
(ogromny!) obszar natężenia dźwięku — ponad 120 dB. Dalej, jama bęben- 
kowa mająca kontakt z powietrzem atmosferycznym poprzez trąbkę słu- 
chową, otwierającą się w części nosowej gardła, pełni funkcję układu wy- 
równującego spoczynkowe ciśnienie po obydwu stronach błony bębenkowej, 
która w przeciwnym przypadku może ulegać naprężeniom*? utrudniającym 
percepcję słuchową. Na koniec układ ucha środkowego (a przynajmniej 
ostatnia z kosteczek słuchowych — strzemiączko) uczestniczy w słyszeniu 
na drodze tzw. przewodnictwa kostnego. 

Wszystkie wymienione układy, a zwłaszcza elementy ucha środkowego, 
w tym łańcuch kosteczek słuchowych, wnoszą do percepowanego sygnału 
dźwiękowego dynamiczne zniekształcenia i zakłócenia, których charakter 
ujęty będzie w przytoczonym dałej modelu. 

W wielu próbach opisu i modelowania systemu słuchowego przyjmuje się, 
że $, = 1. Jednak analiza budowy ucha zewnętrznego pozwała upewnić się, 
że podejście takie jest błędne. Przewód słuchowy zewnętrzny (meafus 
acousficus ext) ma wprawdzie dość złożony kształt, można go jednak utoż- 
samiać (z wystarczającą do celów modelowania dokładnością) ze sztywną 
rurką o przekroju kołowym i długości D = 27 mm, zamkniętą na końcu 
sztywną przegrodą. W tym przypadku 


Zaz WZ 6.8) 
ACZ we, 
d Tre 
gdzie: 09 = =D 


c — prędkość fali dźwiękowej w powietrzu. 

W modelu przyjęto wg = 2r 2300 Hz oraz 6 = 0,2 uzyskując charakterys- 
tykę częstotliwościową przedstawioną na rys. 3-6. Charakterystyka ta jest 
zgodna z podawanymi, przez wielu badaczy charakterystykami empiryczny- 
mi. 

Odnośnie odwzorowania $, istnieje stosunkowo niewiele danych empirycz- 
nych i równie mało prób modelowania. W omawianym modelu przyjęto 
arbitralnie $, = K = const, jakkołwiek jest to niewątpliwie znaczne uprosz- 


*' Naprężenia te powstają przy zmiennym ciśnieniu zewnętrznym, na przykład podczas 
lotu samolotem lub przy nurkowaniu. Rola trąbki słuchowej nie ogranicza się jednak 
wyłącznie do tych przypadków, gdyż powietrze zawarte w zamkniętych jamach ciała 
ulega tzw. wsysaniu, rozpuszczając się w krążącej krwi i limfie. W tej sytuacji niedrożność 
trąbki słuchowej (wywołana np. obrzmieniem błony śluzowej ujścia gardłowego) prowadzi 
w krótkim czasie do upośledzenia słuchu na skutek różnicy ciśnień po obu stronach błony 
bębenkowej. 
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czenie. Odwzorowanie $, bywało przedmiotem badań symulacyjnych, dos- 
tępnych jest także stosunkowo wiele danych na temat charakterystyk często- 
tliwościowych ucha środkowego, wobec tego wybór transmitancji Q, był 
silnie zdeterminowany wynikami wcześniejszych prac. W modelu stosowano 
postać transmitancji 
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z parametrami b = 2a = 2m 1500 oraz C, = 0,3a(a? +b?). Charakterystykę 
częstotliwościową modelu przedstawiono na rys. 3-7. 

Odnośnie odwzorowania $, istnieje najwięcej wątpliwości, a jego realizacja 
w postaci modelu nastręcza największych trudności. 

Przewód ślimakowy będący jednym z kilku kanałów ucha wewnętrznego 
spełnia rolę analizatora dźwięku. Światło kanału ślimaka o średnicy około 
3 mm jest przedzielone poprzecznie na całej długości blaszką spiralną, two- 
rząc odcinek górny i dolny. Elastyczna część blaszki jest nazywana błoną 
podstawną. Od blaszki spiralnej biegnie ukośnie do zewnętrznej ściany śli- 
maka błona Reisnera, tworząc tym samym trzy kanały: schody przedsionka, 
schody bębenka oraz przewód ślimakowy. Kanały te łączą się ze sobą na 
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szczycie ślimaka małym otworkiem zwanym helikotremą. Błona podstawna 
spełnia rolę analizatora częstośliwościowego drgań akustycznych. 

Na błonie znajduje się skupisko komórek zwane narządem Cortiego. Wy- 
różniamy w nim dwa typy komórek słuchowych (rzęsatych): wewnętrzne 
i zewnętrzne. Komórki rzęsate wewnętrzne ułożone są w jednym rzędzie 
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i w pewnej odległości od komórek rzęsatych zewnętrznych tworzących trzy, 
cztery lub pięć równoległych rzędów. Każda komórka rzęsata.jest zaopatrzo- 
na w szczecinowate rzęski o różnej długości. W stanie spoczynku dłuższe 
rzęski dotykają swymi końcami żelowatej struktury zwanej błoną pokrywa- 
jącą. Błona ta wraz z zespołem komórek tworzy funkcjonalnie zamknięty 
system przetwarzający sygnały mechaniczne na sygnały nerwowe. Istnienie 
w analizatorze słuchowym dużej różnicy potencjałów między wnętrzem ko- 
mórki rzęsatej a kanałem ślimakowym (około 160 mV) stwarza możliwość 
sterowania systemu na drodze elektrycznej. Struktura ucha wewnętrznego, 
przedstawiona na rys. 3-8 i 3-9, wskazuje na ogromną rolę, jaką w tym frag- 
mencie systemu słuchowego pełni błona podstawna. Jej funkcja polega na 
zamianie zmian ciśnienia akustycznego w perylimfie wypełniającej kanały 
ślimaka (patrz dalej) wywołanych drganiami podstawy strzemiączka w okien- 


74 


ku owalnym ślimaka W., na poprzeczne oscylacje poszczególnych punktów 
błony. Można to opisać następująco: 
(3.10) 


Błona ta wzdłuż kanału ślimaka zmienia swą szerokość (w stosunku 1: 12,5), 
masę (1:50) i sztywność (1:105%), w wyniku czego drgania mechaniczne 
strzemiączka w okienku owalnym ślimaka, przenosząc się poprzez płyn 
wypełniający ślimak (perylimfę), wywołują nierównomierne oscylacje po- 


W, z 


szczególnych punktów błony (część dolna rys. 3-9). 
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3-8. Ucho wewnętrzne — przekrój poprzeczny 
jednego z kanałów ślimaka z zaznaczeniem 
najważniejszych struktur. Dla lepszej 
rozróżnialności szczegółów powiększono znacznie 
w stosunku do rzeczywistości narząd Cortiego. 
Podstawowym elementem jest tu błona podstawna, 
dzieląca schody przedsionka i przewód ślimakowy 
od schodów bębenka. Jej drgania, wymuszone 
rejestrowaną falą dźwiękową, przekazywane są 
przez receptorowe komórki słuchowe do części 
nerwowej systemu 


„Okienko owalne 
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Odiegłość od okienka owalnego 


3-9. Uproszczony schemat ucha wewnętrznego — 
ślimak narysowano w formie rozwiniętej, to 
znaczy schody przedsionka i schody bębenka 
(w rzeczywistości ponad 2,5 zwoju wokół osi 
ślimaka) narysowano jako proste. Nie 
zachowano również proporcji wymiarów. 
Wskazano natomiast, że drgania błony 
podstawnej zależne są od częstotliwości; 
obwiednia drgań błony, naszkicowana 

w uproszczeniu pod rysunkiem, charakteryzuje 
się występowaniem (przy odbieraniu czystego, 
pojedynczego tonu) maksimum, którego 
położenie zależne jest od częstotliwości tonu: 
im niższa częstotliwość, tym dalej (od podstawy 
ślimaka i okienka owalnego) występuje 
maksimum 


Zjawisko to można ująć ilościowo. Fakt, że maksimum obwiedni drgań 
przypada przy różnych częstotliwościach w różnych punktach błony 
(rys. 3-10), pozwala „wyskalować” błonę w jednostkach częstotliwości. 
Pomiędzy współrzędną przestrzenną punktu na błonie x a częstotliwością 
fali dźwiękowej f(x), wprawiającej ten punkt w maksymalne drgania, wy- 
stępuje zależność wyrażająca się wzorem Greenwooda: 


Jtx) = b10787%—1] 3.11) 
którego parametry, dla ucha człowieka, zwykło się przyjmować: 
a=0,06, b=1654, L=35 (3.12) 
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3-10. Obraz obwiedni drgań błony podstawnej przy trzech różnych częstotliwościach fi > fz > fs. 

Oś amplitud A wyskalowano w jednostkach względnych, rzeczywiste amplitudy drgań zależą bowiem od 
intensywności sygnału dźwiękowego i są na ogół bardzo małe. Przykładowo dla intensywności dźwięku 
odpowiadającego progowi słyszalności amplituda rejestrowanych przez system nerwowy drgań błony 
podstawnej jest rzędu rozmiarów atomów: 10719 m, Oś długości liczonej wzdłuż kanału ślimaka / jest 
natomiast wyskalowana w centymetrach; dla zachowania właściwej proporcji należało narysować obraz 
drgań tak, by amplituda drgań w punkcie maksimum była mniejsza od grubości kreski, którą 
zaznaczono oś ł 


3-11. Schemat modelu 

błony podstawnej; z 
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w tym przypadku 4, (sl c s 
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3-12. Wynik komputerowej symulacji błony podstawnej ucha wewnętrznego. Przebiegi charakterystyki 


amplitudowo-częstotliwościowej sygnału dla trzech wybranych częstotliwości sygnału sinusoidalnego 
(inia ciągła) oraz dla pojedynczej częstości fali trójkątnej (linia przerywana) 
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W odróżnieniu od poprzednio omówionych transmitancji, Q, reprezento- 
wane jest nie przez jedną, lecz przez zbiór transmitancji, odpowiadających 
wyróżnionym, kolejno ponumerowanym punktom błony (rys. 3-11). Wpro- 
wadzając zbiór N* = (1, ..., 30) i decydując, że kolejnym numerom i = 
= 1,...,30 będą odpowiadać punkty odległe o I, = 35— 16,6 log(0,604i+ 
+1) od helikotremy*, otrzymujemy zależność będącą podstawą symulacji 


p C4$ 
ci 108 (s-- czi) wp|-] 
1 | G.13) 


Poli, 5) -| > ż 
Cz +I 
Ś Gted(j2+ 4254) 


gdzie stale wynoszą odpowiednio: c, = 402, c» = 10, cz = 628, cy 

= 0,0038, cs = 6283, cę = 21075, cz = 0,0013. 

Na rysunku 3-12 przedstawiono charakterystyki amplitudowo-częstotliwoś- 
ciowe, a na rys. 3-13 charakterystyki fazowo-częstotliwościowe dyskutowa- 


3-13. Charakterystyki 
fazowo- 
-częstotliwościowe 
błony podstawnej dła 
trzech wybranych 
częstotliwości 10 15 2,0 25 log f 


nego modelu błony dla punktów odpowiadających i = 1, 2i 3. Ponieważ 
dla funkcjonowania modelu błony zasadnicze znaczenie ma lokalizacja 
punktu o maksymalnych drganiach, podano również charakterystyki ampli- 
tuda -— współrzędna (rys. 3-14) i faza — współrzędna (rys. 3-15) przy wy- 
muszeniu tonem sinusoidalnym o częstotliwości odpowiednio równej 100, 
200 i 300 Hz. 

Odwzorowanie Q, odpowiadające modelowaniu receptorów (komórek 


3 300Hz 200Hz 100Hz 

3 

Ę 

E 

< 
3-14. Charakterystyki 
sygnału wyjściowego 
z błony podstawnej (Wer zajzzacj 
w układzie amplitudą — Okienko Helikotrema 
współrzędna na błonie sydlne Współrzędna 


*) Taki rozkład położeń branych pod uwagę punktów odpowiada równomiernemu roz- 
kładowi częstotliwości charakterystycznych kolejnych punktów w przedziale 100-300 Hz 
z krokiem 100 Hz. 
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rzęskowych narządu Cortiego) będzie opisane bez korzystania z przekształ- 
cenia Laplace'a, ponieważ w ich działaniu istotną rolę odgrywa czynnik 
nieliniowy (typu detekcji impulsowej), spowodowany faktem, że depolary- 
zacja błony komórki wywoływana jest wyłącznie przez jednokierunkowe 
uginanie rzęsek. Zagadnienie to zasługuje na obszerniejsze omówienie, gdyż 
zajmuje stosunkowo mało miejsca w łatwo dostępnej literaturze. 


3-15. Charakterystyki 
sygnału wyjściowego 
z błony podstawnej 


w układzie faza — 

współrzędna na błonie 

dla różnych jeg 
częstotliwości sygnału współrzędna Helikotrema 
3.2.5. Model receptora słuchowego 


Bekesy wraz z grupą współpracowników dokonał w roku 1962 fundamen- 
talnych badań częściowo wyjaśniających mechanizmy przetwarzania infor- 
macji w systemie słuchowym. Od tego też czasu wszystkie prace opierają się 
na podanych przez niego założeniach i tezach. W pracach tych często po- 
wraca się do problemu wyjaśnienia procesu przetwarzania sygnałów mecha- 
nicznych na sygnały nerwowe w narządzie Cortiego. Dotychczasowe bada- 
nia opierały się na koncepcji powiązania potencjałów mikrofonowych 
z czynnościami elektrycznymi narządu Cortiego. Wydaje się, że takie po- 
dejście do rozwiązania problemu jest zbyt ogólne i nie w pełni obrazuje 
rzeczywisty proces przetwarzania informacji przez komórki rzęsate. 

Modelowany biologiczny przetwomik sygnałów mechanicznych składa się 
z dwóch komórek: komórki rzęsatej oraz dwubiegunowej komórki nerwo- 
wej rozpatrywanych łącznie. W procesie modelowania zwrócono uwagę na 
środowisko, w jakim znajdują się te komórki, i odwzorowano wpływ układu 


x(t] 


Stan spoczynku Stan aktywny 


3-16. Geometryczna interpretacja pobudzenia komórek rzęsatych w narządzie Cortiego. Przemieszczenie 
błony podstawnej wywołane sygnałem dźwiękowym X(r) powoduje w stereociliach komórek rzęsatych 
naprężenia zginające, wywołane przemieszczeniem punktów 4 i B, między którymi utwierdzone są 
rzęski 
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mechanicznego błony podstawowej na przetwarzanie sygnałów i pobudzanie 
części receptorowych komórki rzęsatej. 

Na podstawie rozważań nad budową układu: błona podstawna —- narząd 
Cortiego — błona pokrywająca zaproponowano schemat układu mechanicz- 
nego (rys. 3-16). Działanie bodźca w formie wychylenia błony podstawnej 
CD w punkcie 0 powoduje przemieszczenie części sztywnych układu. Zmia- 
na położenia narządu Cortiego EF względem błony pokrywającej GH sta- 
nowi główne źródło rozważanych dalej zjawisk. Należy bowiem zauważyć, 
że odpowiadające sobie punkty AB w wyniku przemieszczenia x(t) w punk- 
cie 0 ulegają przesunięciu względem siebie, a szerokość szczeliny pomiędzy 
błoną pokrywającą a kanałem Cortiego maleje. W rezultacie działanie ukła- 
du mechanicznego można opisać równaniem: 


(K-AK):x(t) dla x(t) 2 O 
OE b dla x(t) < 0 6.14) 
gdzie: 
P(t) — ugięcie rzęsek komórek narządu Cortiego (odcinek AB 
na rys. 3-16), 
x(t) — funkcja drgań błony podstawnej, 
K  — współczynnik wzmocnienia układu, 


AK — adaptacyjna zmiana współczynnika wzmocnienia. 
Uwzględnianie w równaniu (3.14) takich czynników jak: wzajemne i prze- 
ciwnie skierowane przemieszczanie się narządu Cortiego i błony pokrywa- 
jącej względem siebie oraz nieliniowość przekształcenia funkcji drgań błony 
podstawnej x(t) w funkcji zmiany przekroju szczeliny P(t), przy pominięciu 
innych czynników upraszcza model, nie zubażając go nadmiernie. 
Elementem bezpośrednio odbierającym sygnały P(t) jest układ cienkich 
rzęsek (tzw. stereocilia), zakotwiczonych w płytce kutikularnej, oraz ciałko 
podstawowe (Hensena), występujące w formie zagęszczenia tworów cyto- 
plazmatycznych bezpośrednio pod powierzchnią płytki kutikularnej (rys. 
3-17). W zależności od typu komórki rzęsatej oraz jej lokalizacji rozróżnia- 
my różne formy rozmieszczenia rzęsek (7, VF, U, W), długości rzęsek zaś 
zmieniają się równomiernie malejąc w kierunku osi ślimaka (rys. 3-18). 
Analizując układ rzęsek oraz ich właściwości receptorowe można zapropo- 
nować uproszczony wzór opisujący sumaryczną liczbę pobudzonych rzęsek: 


r 
nQ) = | ely. x()]dy (3.15) 
r 
gdzie: 
y  —odległość od osi ślimaka, 
x(t) — funkcja drgań błony podstawnej, 
e  —funkcja gęstości rozmieszczenia rzęsek. 


Dotychczasowe rozważania oparte były na ilościowym podejściu do proble- 
mu pobudzenia układu rzęsek. Należy wziąć też pod uwagę nieliniowość 
funkcji naprężenia rzęski w zależności od wielkości pobudzenia oraz nie- 
liniowość występującą w transmisji sumarycznego naprężenia rzęsek do 
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3-17. Uproszczony schemat przekroju komórki 
słuchowej (rzęsatej) mieszczącej się w narządzie 
Cortiego ucha wewnętrznego człowieka. 
Widoczne u góry komórki rzęski to stereocilia 
odbierające wrażenia zmysłowe związane 

z drganiami akustycznymi, Informacje o tych 
drganiach przekazywane są do synaps komórek 
nerwowych zwoju spiralnego, widocznych 

u dołu komórki 


3-19. Zmiana oporności 
elektrycznej R ciałka 
Hensena w zależności 
„od zmieniającej się 

w czasie szerokości 
przekroju szczeliny 
pomiędzy wierzchołkami 
komórek rzęsatych 

w narządzie Cortiego 
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3-18. Obraz rozkładu rzęsek na górnej 
powierzchni komórki rzęsatej, opracowany na 
podstawie fotografii z mikroskopu 
elektronowego. Dzięki regularnemu ułożeniu 
rzęsek liczba zadrażnionych (ugiętych) 
stereociliów jest nieliniową funkcją amplitudy 
drgań 


a błoną nakrywkową 


ciałka Hensena. W wyniku tego ciałko Hensena na sygnał sumarycznego 
naprężenia reaguje zmianą swej odporności AR, związaną z wartością P(t) 


nieliniową zależnością 
AR = F[P(t)] 


Pt) 


(3.16) 


Orientacyjny przebieg funkcji F[P(r)] przedstawiono na rys. 3-19. W trak- 
cie badań symulacyjnych przyjmuje się różne parametry rozważanej funkcji 


i bada się ich wpływ na funkcjonowanie modelu. 


Wśród rzęsek komórki rzęsatej wyróżniamy jedną grubszą witkę zwaną 
kinocilium o odrębnej strukturze i funkcji. Budowa jej jest podobna do 
budowy rzęsek tzw. brzeżka prążkowanego w przełyku i drogach oddecho- 
wych, które to rzęski mają zdolność ruchu. Kinocilium dla zewnętrznych 
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komórek rzęsatych jednym końcem przytwierdzone jest do błony pokrywa- 
jącej, natomiast drugi koniec znajduje się wewnątrz komórki rzęsatej, sta- 
nowiąc zgrubienie zawierające błoniaste twory cytopłazmatyczne. Budowa 
ta sugeruje istnienie zamkniętego funkcjonalnie i metabolicznie systemu. 
Na podstawie podobieństwa struktury kinocilium oraz jego ciałka do in- 
nych podobnych rzęsek uznano ją za ośrodek ruchowy w narządzie Cor- 
tiego. 

Bliskość położenia ciałka podstawowego kinocilium w stosunku do ciałka 
Hensena oraz specyficzne rozgraniczenie obu obszarów błonkami i tworami 
cytoplazmatycznymi pozwala sądzić, że istnieje tu sprzężenie zwrotne za- 
wierające następujące układy: błona pokrywająca — stereocilia — ciałko 
Hensena — ciałko podstawowe — kinocilium — błona pokrywająca (rys. 


3-20. Hipotetyczne funkcjonowanie wewnątrzkomórkowego sprzężenia zwrotnego, którego efektem jest 
regulacja czułości komórki rzęskowej w zależności od amplitudy rejestrowanego dźwięku. W przypadku 
dźwięku o dużej mocy (a) kinocilium KC odpycha błonę nakrywkową, w wyniku czego obszar ugięcia 
stereociliów SC zmniejsza się z wielkości x; do xą. Natomiast w przypadku dźwięku o małej mocy 

(b) kinocilium przyciąga błonę nakrywkową, powiększając obszar ugięcia stereociliów do wartości x 


3-20). Jego hipotetyczne działanie jest następujące. W wyniku pobudzenia 
następuje ruch błony pokrywającej oraz powierzchni narządu Cortiego 
względem siebie. Ruch ten powoduje odchylenie się pobudzonych stereo- 
ciliów oraz kinocilium, umożliwiając wygięcie się tych rzęsek bez zmiany 
długości i innych deformacji. Gdy amplituda sygnału wejściowego jest duża, 
następuje pobudzenie określonej liczby stereociliów SC na długości x. 
Kinocilium KC, reagując na bodziec usztywnieniem, powoduje uwypuklenie 
błony pokrywającej, a tym samym pobudzenie stereociliów do odcinka dłu- 
gości x i osłabienie sygnału (rys. 3-20a). 

Natomiast dla zbyt małej amplitudy oddziaływanie kinocilium powoduje 
ruch w stronę przeciwną, uwypuklając błonę pokrywającą oraz zmieniając 
zakres pobudzenia stereociliów z x, na xą (większy). Istnienie obu rodzajów 
oddziaływań: sprzężenia zwrotnego ujemnego oraz dodatniego, ma wpływ 
na układ mechaniczny, a ściślej na zmianę współczynnika wzmocnienia 
AK() we wzorze (3.14) oraz jakość detekcji sygnałów. 

W modelu dokładnym omówione pętle sprzężenia zwrotnego można opisać 
transmitancjami G,(5), G>(5): 


2,6) = G,(5)* RC) G.17) 
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Z2(5) = G2(5)* R(s) (3.18) 


gdzie: R(s) = Ry +AR(s) (3.19) 
R, — oporność ciałka Hensena dla P(t) = 0 
= 1+73:5 
GO = ETS): G+T;s) 
z 1+76-*5 
GO) = ET): GETz5) 


Ty -— TG — dobrane doświadczalnie stałe czasowe. 


Natomiast adaptacyjną zmianę wzmocnienia układu mechanicznego AK(t) 
można wyrazić równaniem: 


Za(i) = e7"3:0 (3.20) 
AK(t) = ©: z,(1)-d. zs(1) 3.21) 


gdzie: c, d, h — stałe współczynniki. 

Na obecnym etapie modelowania istotnym probłemem jest transmisja syg- 
nału, odwzorowanego przez zmienną rezystancję ciałka Hensena, a drugi 
koniec komórki rzęsatej, w rejon dochodzących zakończeń nerwowych. 
W tym celu rozważono prosty zastępczy obwód elektryczny (rys. 3-21), mo- 


3-21. Schemat 
elektryczny układu, 

w którym zmiana 
parametru ; 
(rezystancji) ciałka 
Hensena R jest 
zamieniana na zmianę 
napięcia drażniącego 
synapsę komórki 
nerwowej u.. Źródło 
siły elektromotorycznej 
E zasilane jest różnicą 
koncentracji jonów 
elektrolitów 

w poszczególnych 
częściach narządu 
Cortiego, linią 
przerywaną 
zaznaczono zarys 
komórki 


gący odwzorowywać pracę komórki rzęsatej w jej środowisku. Zmienna 
rezystancja R(t) ciałka Hensena powoduje zachwianie równowagi elektrycz- 
nej w narządzie Cortiego objawiające się zmianą napięcia na błonie ko- 
mórkowej u.(t). W modelu uwzględniono takie wielkości jak: biołogiczne 
Źródło zasilania E, stałe rezystancje R;, R. reprezentujące oporności środo- 
wiska i błony komórkowej, zmienną rezystancję R(t) ciałka Hensena oraz 
pojemność C błony komórkowej. Wielkość u.(t), występującą na końcu 
komórki rzęsatej, uzyskuje się rozwiązując równanie różniczkowe: 


du() „M1. 1 c 
ge 760) cję zszo| Erik) 0 20 
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gdzie: 


c — pojemność błony komórkowej, 

R = Ra +AR— oporność ciałka Hensena (R, — oporność spo- 
czynkowa), 

AR — zmiana oporności pod wpływem sygnału pobudza- 
jacego, 

Ry — oporność błony komórkowej, 

R» — oporność środowiskowa, 

E — różnica potencjałów między wnętrzem komórki 


rzęsatej a otoczeniem (E = 160 mV = const). 

W dolnej części komórki rzęsatej występuje duże zagęszczenie tworów cyto- 
plazmatycznych, zwane ciałkiem Retziusa, wśród których główne znaczenie 
mają pęcherzyki wypełnione neuromediatorem. W tej części komórki do 
błony komórkowej przylegają zakończenia nerwowe układu aferentnego 
i eferentnego. Istnieją trzy rodzaje zakończeń nerwowych różniące się między 
sobą subtelnymi, lecz istotnymi szczegółami, takimi jak: rodzaj styku z bło- 
ną komórkową oraz struktury cytoplazmatyczne, będące w pobliżu styku. 
W układzie tym każdy nerw aferentny odbiera sygnały od grupy komórek 
sensorowych i kieruje je w stronę wyższych pięter systemu nerwowego. 
Natomiast struktura oraz znaczenie równie gęstej sieci włókien eferentnych 
nie jest obecnie dokładnie znane. Przypuszcza się, że sieć ta stanowi istotny 
czynnik w procesie kodowania orąz wstępnego przetwarzania (selekcji) 
informacji w różnych częściach ślimaka. 

W modelu omawianego systemu uwzględniono styk komórki rzęsatej z afe- 
rentnym zakończeniem nerwowym. Założono przy tym, że ciałko Retziusa 
w komórce spełnia rolę kolbki presynaptycznej synapsy pobudzającej. 
W przypadku wystąpienia sygnału pobudzającego następuje wydzielenie 
neuromediatora z pęcherzyków, a tym samym zadrażnienie błony postsynap- 
tycznej. Dynamikę takiego styku zamodelowano za pomocą transmitancji 
G:(5) 

w(i +SToje""" 


G;(5) = G+sT)Q+ST;) (3.23) 
gdzie: 

w — waga danego styku, 

Ty, Tg, Ty — stałe czasowe (dobierane eksperymentalnie), 

c — opóźnienie. 


Pełny model komórki rzęskowej, obejmujący zjawiska opisane równaniami 
(3.14) -+ (3.23), jest jednak zbyt skomplikowany do symulowania go wraz 
z innymi elementami systemu słuchowego i dlatego zostanie.znacznie uprosz- 
czony. Można więc zapisać dla $,: 

t 


xl, 1) = za j wl, DU -+signy„(Z, O]dr+RND (3.24) 

!-T 
gdzie RND jest wartością przypadkową symbolizującą czynnik losowości, 
występujący w funkcjonowaniu receptorów. Wyraża się on impulsacją spon- 
taniczną w warunkach braku sygnału dźwiękowego i indeterministyczną 
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relacją pomiędzy wielkością odpowiedzi receptora a wielkością bodźca. 
W dalszej dyskusji czynnik losowy pominięto (RND = 0), gdyż wyniki 
wstępnych badań wykazały, że jego uwzględnianie prowadzi do trudności 
z interpretacją uzyskiwanych wyników. Ponadto uwzględniono odwzorowa- 
nie wyłącznie dla wybranych wartości parametru /, odpowiadających 
wspomnianym wyżej dyskretnym punktom, w których modelowano funkcjo- 
nowanie błony. Zatem ostatecznie odwzorowanie $, odpowiada przekształ- 
ceniu: 


XG, = V! yi,9U+signO(i, 0] (3.25) 
Ę v=q=k 


Odwzorowanie $, ma złożony charakter, gdyż w zależności od typu po- 
łączeń między dendrytem neuronu zwoju spiralnego a komórkami recepto- 
rowymi pobudzenie uzależnione jest od stanu błony w ustalonym punkcie 
lub na pewnym, niekiedy dość rozległym obszarze. Zagadnienie to zasługuje 
na obszerniejsze przedyskutowanie, czemu poświęcony będzie kolejny pod- 
rozdział, Zanim jednak przejdziemy do dyskusji szczegółów, warto wskazać, 
dlaczego poświęcamy tej sprawie tak wiele uwagi. 

Ucho wewnętrzne pełni w systemie słuchowym człowieka dwojaką funkcję. 
Z jednej strony jest ono analizatorem widma (składu harmonicznego) od- 
bieranych sygnałów dźwiękowych, z drugiej stanowi przetwornik, w którym 
parametry odbieranego sygnału dźwiękowego są przekodowane i przekształ- 
cone na impulsy nerwowe, przekazywane do nerwowej części systemu słu- 
chowego. Klasycznie przyjmowano, że obie wymienione funkcje ucha wew- 
nętrznego są od siebie niezależne, gdyż pierwszą z nich wiązano z mechanicz- 
nymi własnościami błony podstawowej ślimaka, drugą natomiast z funkcjo- 
nowaniem komórek rzęskowych narządu Cortiego i pracą dwubiegunowych 
neuronów zwoju spiralnego. Wiele faktów zmusza jednak do zrewidowania 
tego poglądu. Z dokładnych obserwacji fizjologicznych, a także z obliczeń 
i prób modelowania wynika, że błona podstawowa ucha wewnętrznego jest 
analizatorem dźwiękowym o bardzo małej dobroci**, W zakresie częstotli- 
wości 1--3 kHz ocenia się, że Qi, £ 1. 

Tymczasem badania mikroelektrodowe prowadzone w kanale słuchowym 
wewnętrznym dowodzą, że rozkład pobudzeń komórek zwoju spiralnego 
charakteryzuje się wyraźnie większą dobrocią, rzędu Q.»oj, £ 20. Jest to 
w dalszym ciągu znacznie mniej, niż wynosi dobroć całego systemu słucho- 
wego, dla którego przyjmuje SiĘ Qsysremu X 200, jednakże dalszy (w sto- 
sunku do Qzwesu) Wzrost dobroci częstotliwościowej systemu słuchowego 
można z powodzeniem wytłumaczyć pracą wielowarstwowych asymetrycz- 
nych sieci z hamowaniami obocznymi, a nawet udało się określić strukturę 
takich sieci. Znacznie trudniejsze jest wyjaśnianie efektu wzrostu selektyw- 


*» Dobroć analizatora akustycznego rozumiana jest tutaj jako stosunek częstotliwości 
sygnału wymuszającego /a, będącego czystym tonem sinusoidalnym, do szerokości pasma 
AJ, w którym sygnał wyjściowy analizatora jest mniejszy od sygnału dla częstotliwości f, 


co najwyżej o 3 dB: Q = ryż 
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3.2.6. 


ności na styku między błoną podstawową a zwojem spiralnym (przejście 
Od Qkiony do Qzwoj„). Fenomenu tego nie można wyjaśniać oddziaływaniami 
międzyneuronowymi, gdyż neurony zwoju spiralnego mają formę dwu- 
biegunową i nie kontaktują się między sobą. 
Wyjaśnienie przyczyn wzrostu dobroci analizatora słuchowego ma znaczenie 
nie tylko teoretyczne. Wszystkie budowane do chwili obecnej analizatory 
widma dowolnych sygnałów, niezależnie od techniki, w jakiej je wykonano, 
wykazywały charakterystyczne powiązanie dobroci Q z minimalnym nie- 
zbędnym czasem analizy Aż. Związek ten można wyrazić wzorem 

Af: At = k = const (3.26) 
gdzie k jest zależne od zastosowanej techniki (zwykle k © 1). Badania ucha 
sugerują, że w systemie słuchowym ograniczenie (3.26) wydaje się nie obo- 
wiązywać. System ten, jak wspomniano wyżej, cechuje się dużą dobrocią 
(Qsystemu © 200) przy równoczesnym bardzo małym czasie analizy (At = 
X 10 ms). Żaden ze znanych systemów analizy, włączając w to zastosowanie 
algorytmu szybkiej transformaty Fouriera, nie zapewnia takiego tempa 
analizy przy wskazanej selektywności. 


Model przekazywania informacji do części nerwowej 
systemu słuchowego 


Jak wynika z przytoczonej wyżej dyskusji, na błonie podstawnej tworzona 
jest „„mapa” pobudzeń i fale o różnych długościach wprawiają w maksy- 
malne drgania różne jej rejony. Rozróżnienie dźwięków o różnych często- 
tliwościach możliwe jest także i na innej zasadzie. Obok charakterystyk 
amplitudowych, przytoczonych przykładowo na rys. 3-12, rozważać można 
charakterystyki fazowe błony podstawnej, przedstawione na rys. 3-22. 

Z analizy charakterystyk fazowych G(/, f) (por. także rys. 3-13) można wy- 
wnioskować, że proces dynamiczny, zachodzący na błonie podstawnej pod 


— 


3-22, Charakterystyki błony podstawnej podane w trójwymiarowym układzie współrzędnych: faza, 
częstotliwość, odległość. Z charakterystyk podanych tu i prezentowanych w innych pracach można 
wyciągnąć wniosek, że szybkość rozchodzenia się fali pobudzenia akustycznego w błonie podstawnej 
zależy zarówno od odległości rozważanego punktu od helikotremy, jak i od częstotliwości. Innymi słowy 
w ustalonym punkcie błony, odpowiadającym położeniu rozważanej komórki rzęsatej, szybkość 
propagacji fali będzie się zmieniała wraz ze zmianami częstotliwości. Fakt ten można wykorzystać przy 
próbie wyjaśnienia fonomenu selektywności ucha 
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wpływem sygnału dźwiękowego, ma charakter fali mechanicznej, biegnącej 
wzdłuż ślimaka i gasnącej u jego szczytu. Fala ta rozprzestrzenia się z pręd- 
kością, którą można wyznaczyć z wzoru 


_ żef 
36,7) D 
8x 
W przekazywaniu informacji akustycznej do systemu nerwowego uczestniczą 
komórki rzęskowe podlegające naprężeniom mechanicznym podczas drgań 
błony podstawowej. Naprężenia te zamieniane są na impulsy nerwowe, 
przekazywane do neuronów zwoju spiralnego, a ze zwoju spiralnego ner- 
wem słuchowym — do pnia mózgu. Proces ten zachodzi w sposób niejedno- 
rodny. Można wyróżnić dwa typy neuronów zwoju spiralnego. Pierwsze, 
nazywane ortoneuronami, zbierają pobudzenia z kilku zaledwie blisko sie- 


v(l,f) = (3.27) 


3-23. Połączenie pomiędzy ortoneuronami 3-24. Schemat połączeń komórek rzęsatych 
a pobudzającymi je komórkami rzęsatymi. Widać, (kółka) ze spironeuronami zwoju spiralnego 
że: komórka nerwowa (trójkątna) zbiera (trójkąty). Widoczny długi dendryt 
pobudzenia z małego obszaru błony podstawnej, spironeuronu rozciąga się wzdłuż błony 
obsadzonego przez ograniczoną grupę komórek podstawnej i rejestruje pobudzenie łączne, 
rzęsatych (kółka) pochodzące od bardzo wielu (typowo — 


kilkuset) receptorów. Obszar innego dendrytu 
sąsiedniego spironeuronu (linia przerywana) 
częściowo zachodzi na obszar pobudzenia 
prezentowanego spironeuronu, w wyniku czego 
do każdej komórki rzęsatej dociera kilka 
dendrytów. Jest ona wobec tego składnikiem 
wielu podobnych zespołów 


bie zlokalizowanych komórek rzęskowych (rys. 3-23), drugie natomiast, 
zwane spironeuronami, mają długi dendryt, przebiegający wzdłuż błony 
podstawowej i kontaktujący się z wieloma komórkami rzęskowymi (patrz 
rys. 3-24). Dendryt spironeuronu na swojej długości kontaktuje się z komór- 
kami rzęskowymi, do których fala mechaniczna na błonie podstawnej do- 
ciera w kolejnych chwilach czasu. Odstępy czasowe między kolejnymi po- 
budzeniami są zależne od momentów, w których wierzchołek fali dociera do 
odpowiednich punktów, a te zależą od prędkości biegnącej fali. Ponieważ 
prędkość fali jest uzależniona od częstotliwości, wobec tego rytm pobudzeń 
zbieranych przez dendryt spironeuronu zależy od częstotliwości analizowa- 
nego dźwięku. Równocześnie jednak każdy punkt dendrytu spironeuronu, 
do którego dotarło pobudzenie od komórki rzęskowej, staje się źródłem 
sygnału (fali depolaryzacji, rozchodzącej się elektrotonicznie, lub impulsu 
czynnościowego, rozchodzącego się na drodze aktywnych procesów w błonie 
komórkowej), którego propagacja w kierunku ciała (perikarionu) komórki 
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zwoju spiralnego odbywa się z określoną prędkością (zależną od średnicy 
dendrytu). Zachodzi więc równoległy bieg dwu fal: mechanicznej w błonie 
podstawnej i elektrycznej (nerwowej) w dendrycie spironeuronu. Istnieje 
przypuszczenie, że w przypadku synchronizacji tych fal pobudzenie spiro- 
neuronu powinno być maksymalne. Jeśli założyć, że wskazana synchroni- 
zacja zachodzi w punkcie błony o maksymalnej amplitudzie drgań, to wów- 
czas efekty synfazowego sumowania bodźców od kolejnych komórek rzęsko- 
wych przez dendryt spironeuronu mogą dawać zwiększenie dobroci systemu 
słuchowego, w stosunku do wartości wynikających z rezonansowych cha- 
rakterystyk błony podstawnej. 

Aby dokładniej przeanalizować zjawisko, można odwołać się do modelu 
symulacyjnego błony podstawnej (odwzorowanie $,) oraz zamodelować 
prawdopodobny przebieg procesów nerwowych. Można także wyprowadzić 
funkcję v(x, /), której uproszczona postać jest następująca: 


v(l, f) = Go' 
bof" +b, [71073 +b f7107% +b. f5107514b,f310731+b;f1071% 
* cbof 10 +g, f7107'+g2f7107 * +82771075'+gaf7107'+g:.71077! 


(3.28) 
gdzie: 
ay = exp(10), a, = 2n105, a, = —2,5(2n)7aż, 
az = 9,875: (Zn)'aj,a, = —12,5(2n)9a], a; = —1,l25ra?, 
bo = (2n)*, b, = —2,5(2n)?' aż, b, = 10,125Q2n)'at, bz = 
= 2,9375(2n)5a$, bą = 0,984(2n)?a$, bs = 0,Srai?, 
© = 0,375*1075, gy = a,+DyC, gą = 07 +bąc, 
ga = dztbąc, gą = a4+DĄC, gs = as+bsc (3.29) 


Trudniej natomiast opisać zjawiska zachodzące w systemie nerwowym. 

W przypadku przyjęcia hipotezy elektrotonicznego*) rozchodzenia się pobu- 
dzenia w dendrycie spironeuronu, sygnały od poszczególnych synaps, przez 
które spironeuron styka się z kolejnymi komórkami rzęskowymi, ulegają 
przed zsumowaniem w perikarionie komórki opóźnieniom proporcjonalnym 
do odległości synapsy oraz tłumieniu, także zależnemu do odległości. 
Oznaczając przez r(/— ł9) opóźnienie wprowadzane przez odcinek dendrytu 
między synapsą w punkcie / a perikarionem spironeuronu odpowiadającym 
punktowi ły, a przez G; (s, 1— 10) transmitancję wyrażającą między innymi 
tłumienie sygnału przy jego przesyłaniu przez dendryt, możemy zapisać 
globalne pobudzenie spironeuronu e(/9, s) jako: 


e(lo, 5) = ) | Gus, i—lo)e""t-bsx,(,, 5) (3.30) 


i=l 


gdzie przez ł;, i = 1, Ż, ..., n oznaczono położenie kolejnych komórek rzęs- 


*) Alternatywą tej hipotezy jest założenie, że w dendrycie dochodzi do generacji impulsu 
czynnościowego, który jest przesyłany na drodze aktywnych procesów w błonie komórko- 
wej. 


87 


kowych na błonie podstawnej. Sygnał wyjściowy spironeuronu x4(i,7) 
wyraża się nieliniową funkcją pobudzenia 


e(lo, 7) = 27 [e(lo, 50)] 
0. jeśli e(to, 7) < OCZ) 

x,(,9) = | left. 9) 607] jeśli ©(n) < e(lo, 9) £ Xmax  G.31) 
W * [Xmax—©07)] jeśli e(lo, 7) > Xmax 


gdzie w i Xpa, Są stałymi, zaś ©(7) oznacza zmienny przebieg progu, uwzględ- 
niający zjawiska refrakcji bezwzględnej i względnej 


- dla qo £ 7 £ More 


e (3.32) 


7 |00+ dla 4 2 qo+e 


1— (7042) 
gdzie 79 oznacza moment generacji impulsu czynnościowego, a pozostałe 
parametry są stałymi, których wartości można obliczyć na podstawie zna» 
nych rezultatów eksperymentów neurofizjologicznych. Wartość x;g(i, n) 
nazywana dalej sygnałem wyjściowym spironeuronu, interpretowana jest 
jako chwilowa częstotliwość impulsów czynnościowych o standardowej 
postaci 


h(q) = ke” "ke" 6761 _ pęci ne” i (3.33) 
Funkcje Gz oraz r występujące we wzorze (3.30) można wyznaczyć w postaci 
-__ mle) U +T:s) 
Gul, 4.) = s(T:sEDTs+D (3.34) 
r(e) = (3.35) 
1 
gdzie: 
1 
m(e:) = mo FEWY (3.36) 
0 = |=] (3.37) 


Nie jest jeszcze wiadome, czy stałe czasowe 7;, Tą, 73 są zależne od odleg- 
łości g,. Ponieważ brak jest przesłanek do określenia postaci zależności T;(0:), 
to do modelowania przyjęto 7; = const. Nie jest również stwierdzone, 
czy powinno się przyjmować v, = v,(/), wobec czego założono v, = const. 
Przyjęty model umożliwia występowanie wskazanej wyżej interferencji fali 
pobudzenia i fali mechanicznej w błonie dla spironeuronów. Dla ortoneuro- 
nów natomiast przyjęto 


0 gdy x,(i,n) < ©(3) 
xl, 7) = jwle(i, D—O60] gdy Xu > x110) 2607) (3.38) 
WIA ma —607)] gdy X,(i, 7) > Xmax 
gdzie w, Xx oraz ©(7) są parametrami nieliniowej charakterystyki modelu 


neuronu (rys. 3-25). Pominięto przy tym, jak widać ze wzoru (3.38), wszystkie 
elementy dynamiczne, które mogłyby wystąpić w modelu komórki nerwo- 
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wej. Założono, że w porównaniu z bezwładnością mechanicznych elementów 
systemu słuchowego opóźnienia występujące przy propagacji sygnału w den- 
drytach ortoneuronów czy procesy dynamiczne w ich synapsach nie mają 
istotnego wpływu na funkcjonowanie modelu. 


3-25. Charakterystyka 
statyczna X 
najprostszego modelu 9 
neuronu. Sygnał 

wyjściowy X, tylko 

w pewnym przedziale 

jest monotonicznie 

zależny od sygnału 
wejściowego X,, gdyż 

poniżej progu 

zadziałania © oraz 

powyżej pobudzenia 
maksymalnego Xmax 

sygnał wejściowy 

praktycznie nie wpływa 601 
na sygnał wyjściowy q 


Charakterystyka 
aproksymowana 


62 
ICharakterystyka 
| rzeczywista 


Ostatni element modelu, sieć warstwowa reprezentująca funkcjonowanie 
jąder ślimakowych, można opisać funkcją: 

xl, 9) = fa byG—1, 9) -y(i, 7)) = 

= fa tbfi [ax,(i— 1, 9) —xli, w] -h [ax4(i, 9) Xz(i+ 1, dl ) (3.39) 


gdzie: 

0 e< -p 
+ 

ft=|-7k -p<e<p 
k e>p 

bk 

0 e< = 
3e—bk bk 

f.(e) = bk 3 s<e<bk 
I e > bk 


p, b oraz k — parametry przyjętych modeli komórki nerwowej odpowiednio 
realizujących funkcje f4 i 3. 

Wartości parametrów p, b, k dobiera się opierając się na dodatkowych kry- 
teriach (m.in. zdolność eliminacji zakłóceń) na drodze obliczeniowej lub 
(częściej) empirycznie. Funkcja ta wynika ze specjalnie dobranej struktury 
sieci neuronowej modelującej funkcje jąder ślimakowych (rys. 3-26). Sieć ta 
została dobrana w wyniku prac zmierzających do ustalenia takiej jej struk- 
tury, aby dobroć na wyjściu była większa niż na wejściu. Sygnał wyjściowy 
z ostatniej warstwy sieci modelującej jądra ślimakowe jest sygnałem wyjścio- 
wym modelu. 

Poszczególne elementy modelu, a także całą strukturę, badano przy użyciu 
generatora sygnałów testowych (por. rys. 3-5 — linia przerywana), generują- 
cego przebiegi czasowe 
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PG 


4%2I 403) ł j 4 PSN 


Xx! 


x,12) Xg(3) XyfN 


3-26. Najprostsza struktura sieci neuropodobnej polepszającej selektywność rozdziału sygnałów 
dźwiękowych o różnych częstotliwościach w systemie nerwowym obsługującym funkcjonowanie 
analizatora słuchowego. Sieci podobnego typu i realizujących zbliżone funkcje można opracować 

i zaproponować bardzo wiele, jednak przedstawiony model odznacza się prostą i regularną, warstwową 
budową, co może ułatwiać jego praktyczne wykorzystanie. Nie wiadomo, czy i w jakim stopniu model 
ten odpowiada rzeczywistej strukturze jąder ślimakowych człowieka 


P1(1) = AsinQreft+ q) (3.40) 

Pat) = ży” sin(rify (+1) (3.41) 
oraz 

psl) = Y! Asin(Zrfit+yo) (3.42) 


o dowolnie ustalanych wszystkich parametrach. Przebiegi sygnałów testo- 
wych przedstawiono na rys. 3-27. Odpowiedź układu modelującego ucho 
zewnętrzne na wymuszenie postaci jak na rys. 3-27a przedstawiono na rys. 
3-28, a odpowiedź modelu ucha środkowego na ten sam sygnał przedsta- 
wiono na rys. 3-29, Na rys. 3-30 przedstawiono obraz czasowo-przestrzen- 
nych zjawisk modelowanych dla ucha wewnętrznego. Sygnałem wejściowym 
był sygnał z rys. 3-27c o częstotliwości f = 1 kHz. Na rysunku, którego 
osie odpowiadają czasowi oraz współrzędnej przestrzennej (numerowi roz- 
patrywanego punktu na błonie), widać powstawanie i propagację fal mecha- 
nicznych wzdłuż błony podstawnej, a także modulację amplitudy fali w za- 
leżności od położenia rozważanego punktu (tzw. zasada miejsca). To ostat- 
nie zjawisko dokładniej można prześledzić na rys. 3-31, przedstawiającym 
obwiednię drgań błony oraz obraz biegnącej fali w trzech wybranych mo- 
mentach czasu. Na rysunku 3-32 przedstawiono w analogiczny sposób jak 
na rys. 3-30 rozkład pobudzeń na wyjściu jąder ślimakowych. 
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3-27. Sygnały testowe: 

a — sygnał używany przy badaniu symulowanych komputerowo elementów modelu systemu słuchowego człowieka 

(przedstawiony przebieg odpowiada czystemu tonowi), b — sygnał używany w modelu systemu słuchowego — akord 

harmoniczny, zawierający składowe o częstotliwościach będących wielokrotnościami częstości podstawowej, c — sygnał 

używany w modelu systemu słuchowego; reprezentuje najbardziej złożoną postać sygnału: kombinację przebiegów 

9 częstotliwościach nie będących wielokrotnościami, zatem cały sygnał nie odznacza się regularnością, właściwą tonom 
icznyry 
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2. Symulacja systemu słuchowego 
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3-28. Odpowiedź ucha zewnętrznego na pobudzenie sygnałem testowym 
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Czas w sekundach 


3-29. Odpowiedź ucha środkowego na pobudzenie sygnałem testowym 
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3-30. Odpowiedź ucha 
wewnętrznego na 
pobudzenie sygnałem 
testowym. 

W odróżnieniu od 

rys. 3-27 i 3-29, 
prezentujących 
przebiegi 
odpowiednich 
sygnałów w funkcji 
czasu, na podanym 
rysunku przedstawiono 
przebieg sygnału 

w funkcji czasu oraz 
w funkcji odiegłości od 
helikotrermy, gdyż 
proces zachodzący na 
błonie podstawnej 
należy rozważać 

w kategoriach 
czasoprzestrzennych 


20] 


Amplituda 


-420- 


3-31. Obraz ob wiedni drgań błony podstawnej ucha wewnętrżnego wraz z obrazem biegnącej fali, 
w trzech równo odłegłych momentach czasu, uzyskanej w wyniku symulacji 


3.2.7. Uwagi końcowe 


Skonstruowany model systemu słuchowego ma na celu analizę procesów 
dynamicznych zachodzących w poszczególnych piętrach systemu słuchowego 
w czasie percepcji wrażeń dźwiękowych przez człowieka. Dzięki zbudowaniu 
modelu możliwe stało się zbadanie szeregu hipotetycznych zjawisk zacho- 
dzących podczas analizy fali dźwiękowej, a także określenie tych własności 
sygnału dźwiękowego, które w wyniku procesu redukcji informacji zawar- 
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3-32. Obraz pobudzeń 
na wyjściach modeli 
neuronów jąder 
ślimakowych, 
stanowiący odpowiedź 
symulowanego modelu 
systemu słuchowego 

ma pobudzenie sygnałem 


testowym 


3.3. 


tych w sygnale są wydobywane i przekazywane do mózgu. Wyniki modelo- 
wania mają praktyczne zastosowanie przy konstruowaniu urządzeń do 
automatycznego rozpoznawania sygnałów dźwiękowych, głównie mowy. 


Psychologiczne aspekty percepcji mowy 


Przytoczony i obszernie przedyskutowany w poprzednim rozdziale model 
naturalnego, biologicznego systemu percepcji słuchowej pozwala wskazać 
na kilka aspektów psychologicznych, które mogą być przydatne przy opraco- 
wywaniu technicznych systemów analizy sygnałów i próbach automatycz- 
nego rozpoznawania mowy. Równocześnie cechy te i parametry wskazują na 
możliwość bardziej oszczędnego przesyłania sygnału mowy w systemach 
telekomunikacyjnych, gdyż wykrycie i opisanie tych form zakłóceń i defor- 
macji sygnału mowy, których ucho człowieka nie rejestruje i nie analizuje, 
może stanowić podstawę do bardziej tolerancyjnego traktowania pewnych 
mankamentów urządzeń transmitujących sygnały, a w dalszej kolejności 
może stanowić podstawę do oszczędniejszego projektowania i tańszego 
realizowania tych systemów. 

Jako pierwszą należy odnotować możliwość częstotliwościowego ogranicze- 
nia sygnału mowy. Wynika to z jednej strony z dolnoprzepustowych włas- 
ności ucha zewnętrznego i środkowego, uwidocznionych w przytoczonym 
wyżej modelu, z drugiej zaś z badań psychologicznych, wskazujących na 
efekty pogarszania się warunków percepcji mowy przy ograniczaniu jej 
pasma od góry i od dołu. Przykładowe wyniki takich badań, przytoczone 
na rys. 3-33, obrazują obniżenie wyrazistości sylab w zależności od często- 
tliwości granicznej filtracji odpowiednio dolno- i górnoprzepustowej. Łatwo 
zauważyć, że ograniczenie pasma sygnału polegające na odcięciu fragmen- 
tów widma poniżej 300 Hz i powyżej 3500 Hz nie prowadzi (przy braku 
zakłóceń) do zauważalnego obniżenia zrozumiałości sygnału mowy. Po- 
nieważ widmo sygnału mowy — szczególnie w zakresie głosek szumowych 
— rozciąga się daleko poza ten obszar (zwłaszcza w kierunku wysokich 
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częstotliwości, gdzie widmo niektórych głosek ma niezerowe składowe jeszcze 
przy częstotliwościach powyżej 20 kHz), zatem możliwość zawężenia pasma 
jest bardzo znaczna. Możliwe jest zresztą, przy dobrych warunkach trans- 
misji sygnału, dalsze zwężenie pasma — jeśli oczywiście godzimy się na 
ograniczenie wyrazistości, a więc i zrozumiałości mowy. Tego typu akcep- 
tacja niepełnej zrozumiałości może być uzasadniona faktem, że treść wy- 


3-33. Przybliżony 

przebieg zależności 
wskazujących spadek 
wyrazistości sylab 

przy badaniach 

transmisji mowy ILO) 
w funkcji granicznej 100 
częstotliwości przy 
filtracji 
dolnoprzepustowej (Fa) 
i górnoprzepustowej (F;). 
Podana zależność ma 
charakter orientacyjny, 
gdyż dane 
doświadczalne 
prezentowane przez Fa 
różnych autorów i R PRACY 
różnią się w szczegółach 1 Z 3 4 5 flkHi 


Wyroczistość 


powiedzi można rozumieć (kontekstowo uzupełnić) także w przypadku 
niepełnego zrozumienia jej oddzielnych elementów. Okazuje się, że poziom 
zrozumiałości wystarczający do tego, aby komunikacja przebiegała spraw- 
nie choć nie bez spornego wysiłku ze strony obydwu porozumiewających się 
stron, można osiągnąć w przypadku przesyłania pasma o szerokości około 
1000 Hz. Pasmo to, w stosunku do wyżej omówionego zakresu tzw. tele- 
fonicznego (300—3500 Hz) może być zawężone symetrycznie z obydwu 
stron, gdyż liczne doświadczenia wykazały, że we wspomnianym przedziale 
częstotliwości informacje niezbędne do identyfikacji sygnału mowy roz- 
łożone są stosunkowo równomiemie i „wycięcie” jakiejkolwiek części tego 
pasma powoduje podobne (w sensie miar ilościowych) zmniejszenie wyra- 
zistości zrozumiałości mowy. Warto dodać, że tzw. środek widma sygnału 
mowy przypada na częstotliwość ok. 1750 Hz, gdyż podobny spadek zro- 
zumiałości jest efektem odcięcia w widmie wszystkich składowych powyżej 
lub poniżej tej wartości. 

Skutki spostrzeżenia, że sygnał mowy może być (bez utraty możliwości 
prawidłowej jego percepcji) ograniczony częstotliwościowo, są wielorakie 
i generalnie (z punktu widzenia technika) korzystne. Przy wprowadzaniu 
informacji do maszyny cyfrowej pozwala to na stosowanie dłuższego kroku 
dyskretyzacji, a w efekcie prowadzi do oszczędnego gospodarowania pa- 
mięcią maszyny. Przy transmisji mowy drogą kablową lub radiową umożli- 
wia to zwielokratnianie transmisji przez stosowanie wielu pasm separo- 
wanych częstotliwościowo, do przesyłania wielu rozmów z wykorzystaniem 
pojedynczego łącza. Naturalnie każde ograniczenie pasma sygnału mowy 
wpływa niekorzystnie na wrażenie naturalności i subiektywne odczucie 
jakości sygnału, co doskonale jest znane osobom, które słuchają muzyki 
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z radioodbiornika lub magnetofonu o niskiej jakości. Jednak zrozumiałość 
sygnału mowy może nie ulegać istotnym ograniczeniom nawet przy dras- 
tycznych ograniczeniach pasma. 

Inny wniosek z analizy funkcjonowania systemu słuchowego i z badań wy- 
konywanych przy użyciu jego modelu dotyczy częstotliwościowej rozdziel- 
czości słuchu. Rozróżnianie bliskich (częstotliwościowo) tonów następują- 
cych po sobie w dziedzinie czasu dokonywane jest w uchu z bardzo dużą 
dokładnością, co dawało w przytoczonych wyżej rozważaniach podstawę 


do określania dobroci analizatora słuchowego na poziomie Q = Ę m 200. 
Jednak równocześnie występujące tony mogą się wzajemnie maskować, 
przy czym zjawisko to zależy od wielu czynników: warunków eksperymentu 
(słuchanie jedno- lub dwuuszne), natężeń dźwięku maskowanego i maskują- 
cego, ich wysokości i charakteru (ton, szum) itd. Badacze wymienionych 
zjawisk opisują je wprowadzając zazwyczaj tak zwane pasma krytyczne. 
Z bardziej znanych definicji pasma krytycznego wymienić warto zapropo- 
nowane przez Fletchera pasma określane ma podstawie zagłuszania tonu 


o częstotliwości f przez szum zawarty w pasmie o częstotliwościach f+ | A 
przy czym moc akustyczna tonu i szumu są jednakowe. Przyjmując Af jako 
szerokość pasma krytycznego, możemy narząd słuchu traktować (pod 
względem zdolności analizy spektralnej sygnałów dźwiękowych) jak zestaw 
filtrów pasmowych o szerokościach pasm odpowiadających pasmom kry- 
tycznym. 

Szerokości pasm krytycznych opisywane przez różnych autorów różnią się 
od siebie znacznie, co ma związek z różnymi warunkami, w jakich były 
wyznaczone. Jednakże reguła, że szerokość pasma Af wzrasta ze wzrostem 
częstotliwości środkowej filtru” f jest niezmienna. W przybliżeniu można 
przyjąć, że szerokość pasma pozostaje stała w zakresie dolnych częstotli- 
wości do ok. 800 Hz i wynosi — według różnych autorów —od 50 do 
100 Hz (najczęściej wymieniana wartość Af = 60 Hz), natomiast dla częs- 
tości wyższych Af rośnie w przybliżeniu proporcjonalnie do log fi osiąga 
przy f = 8000 Hz wartości od 500 Hz do 1800 Hz (najczęściej 600 Hz). 
Należy podkreślić, że podane wartości Af odpowiadają słyszeniu jedno- 
usznemu, przy słyszeniu dwuusznym pasma krytyczne.są węższe i wynoszą 
od 30 do 60% podanych wyżej wartości. 

Ponadto system słuchowy z bardzo dużą precyzją lokalizuje maksima ampli- 
tudowo-częstotliwościowej charakterystyki sygnału, co jest szczególnie 
ważne przy percepcji mowy, a ma zapewne związek z omawianym przy 
dyskutowaniu struktury modelu ucha mechanizmem „„,wyostrzania” charak- 
terystyk częstotliwościowych. Przykładowo można podać, że przy lokalizacji 
maksimum częstotliwości wynoszącej 700 Hz dostrzegane słuchem prze- 
mieszczenia maksimum nie przewyższają 10 Hz, co w porównaniu z omó- 
wionymi wyżej szerokościami pasm krytycznych wydaje się wynikiem nie- 
wiarygodnym. Podobnie przy częstotliwości 2000 Hz wykrywane słuchem są 
przemieszczenia maksimum obwiedni widma wynoszące 20 Hz, co jest jeszcze 
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bardziej zdumiewające. Warto porównać te fakty z omówioną w poprzed- 
nim rozdziale własnością systemu artykulacji mowy naturalnej, w którym 
sygnalizowano zdolność narządów mowy do kształtowania wnęk rezonanso- 
wych wywołujących lokalne koncentracje energii w widmie mowy, zwane 
formantami. Narzuca się wniosek, że formantowa struktura wielu artykuło- 
wanych głosek ma związek z własnościami słuchu, ułatwiającymi głównie 
lokalizację maksimów obwiedni widma. 

Rozdzielczość amplitudowa słuchu jest również przedmiotem licznych ba- 
dań, lecz tu wyniki różnych badaczy mniej różnią się od siebie. Na ogół 
przyjmuje się, że minimalne odczuwalne słuchem zmiany głośności odpo- 
wiadają różnicy poziomów wynoszącej 0,6 dB, przy czym dla szczególnie 
słabych dźwięków ten próg podwyższa się do 2--3 dB. Przytoczone wartości 
dotyczą rozdzielczości amplitudowej słuchu badanej w warunkach laborato- 
ryjnych. Rzeczywiste zdolności rozróżniania amplitudy dźwięków mowy są 
mniejsze. I tak często cytowane są wyniki badań Flanngana, który stwier- 
dził, że w najistotniejszyci z percepcyjnego punktu widzenia rejonach wierz- 
chołków formantów dostrzegalne zmiany poziomu wynoszą około +3 dB 
i —6 dB, Ponadto znany jest fakt, że krótkotrwałe zmiany poziomu sygnału 
nie są przez ucho człowieka wykrywane. Wiąże się to z dużą stałą czasową 
słuchu, która wynosi 20 -- 30 ms przy narastaniu i 200 + 250 ms przy opada- 
niu sygnału. W rezultacie ucho nie reaguje także na zmiany szybkości na- 
rastania i opadania mocy sygnału mowy —- o ile nie przekraczają one war- 
tości 100 dB/s lub nie trwają dłużej niż 20 ms. 

Percepcyjne własności i możliwości człowieka co do sygnału mowy są często 
opisywane z wykorzystaniem pojęć wyrazistości i zrozumiałości elementów 
mowy w określonych warunkach. Dla potrzeb badań psychoakustycznych 
rozwinięto obszerną teorię wyrazistości i zrozumiałości, z licznymi wzorami, 
tabelami i nomogramami. W uproszczeniu można przyjąć, że wyrazistość 
sygnału mowy przesyłanego lub analizowanego w pasmie częstotliwości 
o szerokości Fi uwzględniającego zakres dynamiki D można wyrazić wzo- 
rem 


4 = kDF 


gdzie współczynnik k x 0,95: 1075 dB"'Hz"* normalizuje współczynnik 
wyrazistości w przedziale (0,1). Podkreślić należy, że przytoczone oszacowa- 
nie stanowi pierwsze przybliżenie; dokładniejsze wzory wymagają analizy 
rozkładu sygnału na osi częstotliwości z uwzględnieniem pasm krytycznych 
mowy, rozkładu prawdopodobieństwa występowania formantów oraz po- 
ziomu sygnału i poziomu szumu. Odpowiednie wzory o większej dokład- 
ności i złożoności można, stosownie do potrzeb, znaleźć w literaturze. 

Wyrazistość sygnału mowy związana jest z:jego zrozumiałością, przy czym 
zależność ta ma charakter monotonicznie rosnący, ale nieliniowy. Zależna 
jest od tego, czy rozpatrujemy zrozumiałość głosek sylab, logatomów*, 


*> Logatomy są zestawami głosek, które mają podobną budowę jak wyrazy, ale nie są 
sensownymi (mającymi znaczenie) wyrazami rozważanego jezyka. Używane są w bada- 
niach fonetycznych i psychologicznych do badań nad percepcją mowy. 
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wyrazów czy całych wypowiedzi. Odpowiednie tabele i diagramy znaleźć 
można w podanej na końcu książki literaturze. Z, wystarczającym dla prak- 
tycznych zastosowań przybliżeniem można przyjąć, że między wartościami 
wyrazistości wynoszącymi A = 0,1 (zrozumiałość bliska 0%) a punktem 
A = 0,6 (zrozumiałość ok. 80%) ma miejsce proporcjonalna (liniowa) za- 
leżność zrozumiałości od wyrazistości, Dla większych wyrazistości odpowia- 
dające im przyrosty zrozumiałości są mniejsze, przy czym oczywiście docelo- 
wo przy wyrazistości A = ł zrozumiałość osiąga 100%,. Przytoczone dane 
mają jednak charakter orientacyjny, gdyż różni badacze przytaczają znacznie 
różniące się charakterystyki, a analizę wydatnie komplikuje wpływ kon- 
tekstu. Konieczne jest także uwzględnianie faktu nierównomiernego prawdo- 
podobieństwa występowania różnych fonemów i ich zestaw (diad, triad, 
sylab), a także całych wyrazów. Wobec powyższego badania zrozumiałości 
mowy prowadzi się zwykle bezpośrednio: grupa osób słucha nadawanych 
sygnałów i notuje swoje rozpoznania, co następnie jest porównywane z 
z wzorcem badanego tekstu. Prace takie są bardzo mozolne, a wnioskowanie 
prowadzone jest ż wykorzystaniem metod statystycznych. Jest to jednak 
w praktyce jedyna droga, gdyż badania wyrazistości, możliwe do przepro- 
wadzenia na drodze aparaturowych pomiarów, trzeba traktować jedynie 
jako wstępne, weryfikowane psychologicznie, orientacyjne dane. 


4.1. 


Metody opisu sygnału mowy 


Opis sygnału w dziedzinie czasu 


Sygnał mowy może być badany i opisywany na różne sposoby, przy czym 
każda z omawianych metod ma swoje specyficzne zalety i wady. Dła pełnego 
obrazu dokonamy więc w tym rozdziale dyskusji różnych metod opisu. 
Niektóre z nich odgrywają obecnie rolę dominującą i są powszechnie stoso- 
wane, inne zaś — w tym opis sygnału w dziedzinie czasu — utraciły obecnie 
wiele ze swego znaczenia. 

Sygnał mowy, traktowany jako przebieg czasowy (rys. 4-1) ma skompliko- 
wany przebieg, będący odzwierciedleniem złożonego charakteru procesu 
jego artykulacji Na parametry sygnału ma wpływ jego źródło (którym 
są albo drgające wiązadła głosowe, albo szum turbulentnego przepływu 
powietrza przez przewężenia w narządach mowy) i własności dynamiczne 
kanału głosowego, formującego strukturę sygnału. Operując w dziedzinie 
czasu sygnał można matematycznie opisać za pomocą splotu przebiegu 
czasowego sygnału źródła u,(t) i odpowiedzi impulsowej kanału głosowego 
h(): 


u(t) = (A(--2)u,(ejdr (4.1) 
ó 
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4-1. Przebieg czasowy sygnału mowy (wyraz serce; głos męski) 


Interpretacja przytoczonego wzoru wskazuje, że w sygnale czasowym właści- 
wości źródła i właściwości kształtującego dźwięk kanału głosowego są ze 
sobą ściśle powiązane, nie można zatem rozpatrywać ich oddzielnie, gdyż 
kształtują obraz przebiegu wspólnie. Tymczasem, jak wiemy, w procesie 
artykulacji zmieniana jest głównie struktura kanału głosowego, modulujące- 
go sygnał, a więc składnik zapisany jako h(t), zaś przebieg czasowy u,(t) 
jest zmieniany nieznacznie (szczególnie dla głosek bezdźwięcznych). Ponie- 
waż przebieg czasowy sygnału mowy jest kształtowany przez składniki 
przypadkowe i zdeterminowane przy równoprawności obydwu, wobec tego 
obraz przebiegu czasowego różnych wypowiedzi tego samego mówcy może 
wykazywać więcej wzajemnego podobieństwa niż obraz tej samej wypowie- 
dzi artykułowanej różnymi głosami. Dyskwalifikuje to praktycznie czasową 
postać sygnału w badaniach nad automatycznym rozpoznawaniem mowy, 
a także w tych pracach z zakresu głosowej komunikacji pomiędzy ludźmi, 
które koncentrują uwagę na semantycznej stronie języka i badają —- na 
przykład — skuteczność określonego systemu telekomunikacyjnego z punk- 
tu widzenia jego przydatności do przekazywania zrozumiałej mowy. W ba- 
daniach nad automatycznym rozpoznawaniem osób mówiących lub nad 
osobniczymi własnościami sygnału mowy postać czasowa jest również nie- 
chętnie stosowana. Przyczyna jest identyczna; silne związanie aspektu 
osobniczego i semantycznego w tej postaci sygnału. 

Reasumując, opis sygnału w postaci czasowej jest na ogół mniej przydatny 
od innych, omówionych dalej metod jego prezentacji. Jest on jednak ważny, 
gdyż stanowi punkt wyjścia do wszelkich dalszych metod, ponieważ sygnał 
mowy jest pierwotnie zawsze dostępny w postaci przebiegu czasowego. 
Wobec tego jeśli nawet w dalszej analizie będzie używać się przekształconej 
formy sygnału, to przez etap operowania przebiegiem czasowym trzeba 
przejść. Sygnał w postaci czasowej może być poddany wielu przekształce- 
niom ułatwiającym dalszą jego analizę i obróbkę. Podany więc będzie 
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przegląd niektórych spośród tych przekształceń, aby nie wracać do tego 
tematu wielokrotnie w czasie dalszych rozważań. 
Charakterystyki sygnału w dziedzinie czasu mogą dotyczyć jego amplitud 
i szybkości zmian. Amplituda sygnału może być mierzona w sposób bez- 
względny lub przy stosowaniu poziomu odniesienia, którym zgodnie z mię- 
dzynarodową normalizacją jest sygnał o natężeniu (mocy,akustycznej) 10715 
W/cm?*. Mierzony jest również stosunek sygnału użytecznego do szu- 
mu. Stosuje się miary logarytmiczne, gdyż rozpiętość między dźwiękami 
o mocy największej i najmniejszej, które może przyjmować nasze ucho, 
sięga dwunastu rzędów wielkości i wyrażanie natężeń w skali liniowej 
wiązałoby się z koniecznością używania bardzo dużych liczb i wielocyfro- 
wych zapisów. Poza tym miara logarytmiczna jest najbardziej naturalqa dla 
skali intensywności dźwięku, gdyż — podobnie jak dla większości zmysłów 
człowieka — subiektywne wrażenie głośności związane jest raczej z loga- 
rytmem wartości bodźca, a nie z samą wartością. W fizjologii wyraża to 
znane prawo Webera — Fechnera, stwierdzające, że minimalny dostrze- 
galny przyrost dowolnego bodźca Ap jest proporcjonalny do wartości bodź- 
ca p: 

Ap = kp (4.2) 
Proste przekształcenie wzoru (4.2) wskazuje na celowość stosowania właśnie 
logarytmicznych miar przy określaniu związku między wyrażeniem zmysło- 
wym a działającym bodźcem, przy czym reguła ta jest uniwersalna. Prawo 
Webera ma charakter przybliżony; zależność (4.2) powinna mieć bardziej 
złożony kształt, jeśli ma dokładnie opisywać wrażenia zmysłowe. Ponadto 
logarytmiczna zależność nie obowiązuje dla bardzo dużych i dla bardzo 
małych sygnałów, gdzie na ogół pojawiają się załamania charakterystyki 
typu nasycenie i próg nieczułości (por. rys. 4-2). Jednak przyjęcie logaryt- 
micznej skali dźwięku można uznać za uzasadnione. 
Natężenie dźwięku będzie wyrażane w decybełach. Intensywność dźwięku 
o natężeniu 7. wyraża się za pomocą wzoru: 


i=10 log-j . (4.3) 
o 


gdzie 7, jest natężeniem odniesienia (wspomnianym wyżej progiem słyszal- 
ności, odpowiadającym natężeniu dźwięku na poziomie 10719 uW/em2, 
lub poziomem szumów, wyznaczającym efektywną intensywność dźwięku 
w danych warunkach transmisji). Natężenia dźwięku (7 oraz 74) mierzone 
w uW/em? są trudne do bezpośredniego pomiaru, często więc określając 
intensywność dźwięku posługujemy się wartościami ciśnienia akustycznego 
— odpowiednio p i po. Ponieważ natężenie dźwięku jest proporcjonalne do 
kwadratu ciśnienia akustycznego, to wzór (4.3) przyjmuje równoważną 
postać: 


i = 20 log (4.4) 
Po 


Progowa wartość po w warunkach normalnych wynosi 20,4 Pa (przy tem- 
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peraturze 207C i ciśnieniu 1013,25 hPa). Wyliczyć można ją również ze 
wzoru: 


/ 1 
Po = V | PÓU (4.5) 
[r 


w przypadku, kiedy brany jest pod uwagę przebieg sygnału zakłócającego 
p.(t) rozważanego w czasie t„. Natężenie dźwięku w czasie normalnego, 


4-2. Zależność 
wrażenia zmysłowego 
(odczuwanego 
subiektywnie) od 
obiektywnie mierzonej 
wartości fizycznej 
odpowiedniego bodźca 
ma zwykle charakter 


logarytmiczny. 
W układzie 
współrzędnych 


„„wrażenie-log (bodziec)”” 
odpowiada mu linia 
prosta o ustalonym 
nachyleniu, będącym 


miarą czułości 


receptora. Rzeczywista 
zależność odbiega 


jednak od tej 
teoretycznej 


zależności dla bardzo 
dużych i dla bardzo 
małych bodźców 


log (Bodziec] 


równomiernego wypowiadania kolejnych słów i fraz waha się w szerokich 
granicach, gdyż niektóre fragmenty mowy (zwłaszcza samogłoski) charakte- 
ryzują się wielokrotnie wyższym poziomem sygnału niż inne na przykład 
głoski f czy h. Fakt ten sprawia, że w czasie artykulacji dowolnej wypowie- 
dzi występują znaczne wahania intensywności sygnału, przy czym istnieje 
możliwość takiego dobrania zestawu słów (na przykład prostych komend), 
aby ten „amplitudowo-czasowy profil” wypowiedzi wystarczał do jej jedno- 
znacznej (w rozważanym słowniku) identyfikacji, Zestawienie względnego 
poziomu poszczególnych grup głosek języka polskiego dla typowego wysiłku 
głosowego i w miarę równomiernej wymowy przedstawia się następująco: 
— samogłoski: 32-40 dB, 

— spółgłoski boczne i samogłoski niesylabiczne: 35 dB, 

-— spółgłoski nosowe: 30 dB, 

— spółgłoski trące dźwięczne oraz drżące: 27 dB, 

— spółgłoski zwarto-trące dźwięczne: 26 dB, 

-— spółgłoski trące bezdźwięczne: 25 dB, 

— spółgłoski zwarto-trące bezdźwięczne: 24 dB, 

-— spółgłoski szumowe wyjątkowo małej energii — f, h — 20 dB. 
Przytoczone dane mają charakter przybliżony, gdyż na moc określonego 
fonemu mają wpływ indywidualne własności wymowy określonej osoby, 
tempo mowy, a także cechy prozodyczne wypowiedzi (inaczej kształtuje się 
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amplituda tych samych głosek na początku, w środku i na końcu zdania, 
inaczej w sylabach akcentowanych, a inaczej w nie akcentowanych, wreszcie 
różnice mogą wynikać z kontekstu wypowiedzi i wpływu głosek otaczają- 
cych daną, rozpatrywaną w badaniach). 
Skala amplitudowa sygnału mowy może być przekazywana i przetwarzana 
bez żadnych zmian. Może również podlegać transformacjom, gdyż spostrze- 
gane przez człowieka różnice intensywności sygnału mają charakter względ- 
ny (por. wzór (4.2)), a również stosunek sygnału do szumu jest zupełnie 
inny dla sygnałów o małej amplitudzie, a inny (znacznie korzystniejszy) dla 
sygnałów o dużej amplitudzie. W rezultacie możliwe jest dokonywanie 
kompresji amplitudy sygnału przed jego przetwarzaniem lub przesyłaniem, 
a następnie — po przesłaniu lub przetworzeniu — możliwe jest proste od- 
tworzenie pierwotnej postaci sygnału przez poddanie go operacji odwrotnej 
do kompresji. Zabiegi te ogólnie można opisać wrowadzając nieliniową 
funkcję kompresji F(x), która przy wprowadzaniu sygnału mowy 
u(t) do systemu przetwarzającego lub przesyłającego wykorzystywana jest 
wprost: 

u(t) = Fiu(o] (4.6) 
zaś przy odtwarzaniu sygnału z przetworzonego wzorca stosuje się to od- 
wzorowanie odwrotnie: 


u(t) = F""[u'(t)] (4.7) 
Zależność F(x) może być w zasadzie dowolnej postaci, powinna jedynie 
spełniać warunek malejącego nachylenia charakterystyki ze wzrostem 
argumentu x: 


dF dF df 

dz JO), gz ? 0, "Pay 0 dla x > O (4.8) 

Przykładem jest funkcja: 
F(x) = Inx (4.9) 

której odpowiada 
1 

e 4.10 
fa) = (4.10) 


przy czym ze względu na własności funkcji logarytmicznej trzeba rygorys- 
tycznie przestrzegać warunku x > 0, co dla realnego sygnału mowy oznacza 
konieczność rozpatrywania wartości bezwzględnej z pizebiegu i korygowa- 
nia tej wartości w pobliżu zera. Z tych względów jako międzynarodowy 
standard przyjęto stosowanie funkcji F(x) w postaci zależności liniowo-lo- 
garytmicznej. Istnieją dwie odmiany tego standardu: 

-— amerykańska, wyrażająca się tak zwaną charakterystyką typu p: 


In(1 + 4|x|) 


EE (4.11) 


F(x) = sgn(») 


— europejska (opracowana przez Niemiecki Urząd Poczt), wyrażająca się 
tak zwaną charakterystyką typu A: 
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1+ln(A |x|) 1 
sgnGe) —gną 7 dla lzżx> = 
FQ) = (4.12) 
s (s) AL da L>x>0 
ER T+lnA 4777 


Stosowanie obu wymienionych charakterystyk wymaga, aby sygnał u(t), 
reprezentowany we wzorach (4.11) i (4.12) przez argument x, był unormo- 
wany, przy czym dla wzoru (4.11) wymagane jest, aby: 


-1<u(t)<1 (4.13) 


zaś dla wzoru (4.12) wymagane jest dodatkowo x > 0, co zresztą wynika 
jednoznacznie z zapisu tego wzoru. 

Występujące we wzorach (4.11) i (4.12) parametry m oraz A (od których 
zresztą pochodzą nazwy odpowiednich charakterystyk) mogą być dobierane 
tak, aby optymałnie dopasować charakterystykę do aktualnych potrzeb. 
W szczególności parametr u we wzorze (4.11) 'umożliwia kształtowanie 
stosunku sygnału do szumu w sygnale wynikowym. Gdy „ przybiera większe 
wartości, stosunek ten pozostaje stały w dość dużym zakresie amplitud 
sygnału (co jest zaletą), ale ma równocześnie mniejszą wartość (co jest wadą). 
Wybór „ musi więc być kompromisem między wymaganiami dokładności 
i stopnia kompresji. Interpretacja u jest przy tym dość oczywista: określa 
on poziom wejściowego sygnału, przy którym charakterystyka zmienia się 
z liniowej w logarytmiczną. Interpretacja A we wzorze (4.12) jest podobna, 
przy czym zalecane jest przyjmowanie wartości A równej 87,7. Zysk kom- 
presji (wyrażający się różnicą wzmocnienia dła małych i dla dużych sygna- 
łów) wynosi przy tym 24 dB. 

Szybkość zmian sygnału zależna jest od jego amplitudy i granicznej często- 
tliwości, zgodnie z oszacowaniem Bersteina: 


dex 
sup EB = wgsup |x(t)| (4.14) 
gdzie: 
x(t) — przebieg sygnału mowy, 
wg — pulsacja odpowiadająca częstości granicznej /, sygnału 
(wg = 2refj) 


Widać więc, że czasowe parametry sygnału są w tym zakresie determino- 
wane przez jego własności widmowe, omawiane w dalszym podrozdziale. 
Warto jedynie zwrócić uwagę na fakt, że emitowany sygnał mowy ma bardzo 
bogate widmo i rozciąga się bardzo daleko w kierunku wysokich częstotli- 
wości (zwłaszcza dla głosek szamowych). Natomiast dla jego identyfikacji 
i poprawnej percepcji wystarczające jest posługiwanie się sygnałem odfiltro- 
wanym, którego częstotliwość graniczna /, jest ustalona przez parametry 
użytego filtru. 

Szybkość zmian sygnału w dziedzinie czasu może być dodatkowo zwiększa- 
na w procesie preemfazy, polegającym na uwydatnieniu w sygnale jego 
składowych o wysokich częstotliwościach. Potrzeba stosowania preemfazy 
wynika z tego, że w naturalnym sygnale mowy składowe o dużych często- 
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tliwościach mają mniejszą moc i w wyniku tego stosunek sygnału do szumu, 
korzystny w zakresie składników małoczęstotliwościowych osiąga mniejsze 
wartości dła sygnałów wielkoczęstotliwościowych. Ujmując to samo w jesz- 
cze inny sposób można powiedzieć, że różnice dynamiki sygnału w zakresach 
mało- i wielkoczęstotliwościowych sięgająca 50 dB, co utrudnia znalezienie 
poprawnej wartości wzmocnienia sygnału. Jeśli dokona się tak dużego 
wzmocnienia, aby sygnał dla wielkich częstotliwości był ,,czytelny”, to 
nastąpi przesterowanie aparatury dla małych częstotliwości. Jeśli zaś unor- 
muje się wzmocnienie biorąc pod uwagę poprawne przenoszenie składo- 
wych małoczęstotliwościowych, to składniki wielkoczęstotliwościowe znikną 
całkowicie. 

Zabieg, który częściowo usuwa wskazane niedogodności — preemfaza — 
może być traktowany jako filtracja formująca, osłabiająca generalnie skła- 
dowe sygnału o małych częstotliwościach i relatywnie wzmacniająca skła- 
dowe o częstotliwościach dużych. Obraz takiego wzmocnienia może być 
różny. Na przykład, rozpatrywane bywa prawo filtracji określające zasadę 
liniowego stłumienia (odwrotnie proporcjonalnego do częstotliwości) 
składowych widma oczęstościach niższych niż 5 kHz i przenoszenia bez zmian 
pozostałej części widma, rozważane bywają także i inne reguły. Każda 
z nich ma w istocie arbitralny charakter, gdyż poszczególne elementy mowy 
charakteryzują się różnym stopniem stłumienia składowych wielkoczęsto- 
tliwościowych i wymagają indywidualnej odmiennej korekty, a ponadto 
charakterystyki, o których mowa, są silnie uzależnione osobniczo, zatem 
każda przyjęta reguła będzie poprawnie funkcjonowała jedynie dla pewnego 
podzbioru głosów i sposobów wymowy. Najczęściej przyjmuje się, że 
preemfaza jest — z matematycznego punktu widzenia — różniczkowaniem 
sygnału: 


Xp(t) = cĄ [e(0)] (4.15) 


Podejście takie ma wiele zalet: jest proste w rozważaniach teoretycznych, 
daje proporcjonalne do częstotliwości wzmocnienie sygnału, co prawie 
idealnie odpowiada stopniowi stłumienia tegoż sygnału dla głosek dźwięcz- 
nych. Jest także stosunkowo proste do realizacji zarówno w układach anało- 
gowych, jak i w cyfrowych. Skutki takiej preemfazy sygnału zobaczyć można 
na rys. 4-3 i 4-4. Istotnie, po zastosowaniu preemfazy liczne składowe syg- 
nału, uprzednio niewidoczne, stają się czytelne i możliwe do analizy. 

Zabiegiem realizowanym na sygnale mowy w dziedzinie czasu, a mającym 
istotne znaczenie przy jego przesyłaniu, przetwarzaniu i rozpoznawaniu, 
jest ograniczenie sygnału w dziedzinie amplitud. Wspomniano już wyżej 
o możliwościach i korzyściach, jakie wynikają z zastosowania do sygnału 
mowy technik kompresji amplitudy. Będzie także mowa o możliwościach, 
jakie wiążą się z przetworzeniem sygnału do postaci cyfrowej, zanim to 
jednak nastąpi, należy wspomnieć o udanych próbach przetworzenia sygnału 
do postaci fali prostokątnej o wartościach wynoszących wyłącznie --1 lub 
—1 (rys. 4-5). Taki skrajnie ograniczony amplitudowo sygnał mowy może 
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4-3. Przebieg czasowy sygnału mowy rejestrowanego bez żadnych dodatkowych zabiegów wskazuje na 
dominację małych częstotliwości. Składowe o dużych częstotliwościach są mało widoczne ze względu na 
malejącą ze wzrostem częstotliwości wydajność energetyczną źródła tonu krtaniowego 
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4-4, Przebieg czasowy tego samego sygnału mowy z rys, 4-3, poddanego zabiegowi preemfazy. Na 
ogół taki przebieg znacznie lepiej nadaje się do analizy i rozpoznawania 


być poprawnie rozpoznawany przez człowieka — a o ileż mniej informacji 
zawiera w stosunku do sygnału oryginalnego! Fakt ten powodował przez 
wiele lat duże ożywienie wśród specjalistów zajmujących się sygnałem mowy, 
przy czym inżynierowie telekomunikacji wcześniej zrezygnowali z wykorzys- 
tania „przyciętego” sygnału mowy w celu oszczędzania łączy telefonicznych 
przy przesyłaniu mowy, gdyż sygnał w tej postaci jest wyjątkowo nieprzy- 
jemny do słuchania i jego rozumienie wiąże się z dużym wysiłkiem, a ponad- 
to transmisja fali prostokątnej w łączach fonicznych napotyka trudności. 
Natomiast z punktu widzenia automatycznego rozpoznawania mowy ogra- 
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niczony amplitudowo sygnał jest interesujący ze względu na to, że jest to 
sygnał cyfrowy, wygodny do wprowadzenia do maszyny cyfrowej, a w do- 
datku umożliwiał on — pozornie, jak się wkrótce okazało — łatwe roz- 
poznawanie na podstawie jednego tylko parametru: częstości przejść przez 
zero. Istotnie, w sygnale, który został tak krańcowo zubożony, częstość 
zmiany znaków sygnału (częstość przejść przez zero) była jedynym zacho- 


m 02 dz 03 04 05 08, 06 07 08 08 10 1a” 
Czas trwania wypowiedzi [s] 


Amplituda 
e 
o 


s* 
o 


-120+ 


z ny yi 
00 0! 02 G,2 0,3 04 05 0,6 08 07 08 09 10 40 
Czas trwania wypowiedzi [5] 


4-5. Skrajnie ograniczony amplitudowo obraz sygnału mowy (u dołu) zachowuje wystarczającą ilość 
informacji, aby człowiek mógł go prawidłowo rozpoznać, pomimo że w stosunku do przebiegu 
oryginalnego sygnału (u góry) zachowano zgodność tylko jednego parametru: gęstości przejść przez 
zero. Wykorzystano początkowy odcinek wyrazu serce (por. rys. 4-1) 


wanym parametrem. Parametr ten, oznaczany zazwyczaj go, był możliwy 
do określenia stosunkowo prostymi środkami, łatwy do wyrażenia w postaci 
cyfrowej (wystarczało na przykład zliczać przejścia przez zero w ustalonym 
przedziale czasu i wprowadzać wyniki okresowo do maszyny cyfrowej), 
a ponadto zmieniał się stosunkowo powoli, co oszczędzało pamięć kompu- 
tera i pozwalało wygodnie tworzyć i wykorzystywać wzorce przebiegów 0» 
dla wybranych wypowiedzi. W dodatku parametr ten miał stosunkowo pros- 
tą interpretację — reprezentował mianowicie (w przybliżeniu, gdyż pełna 
teoria na temat parametru g» przypisuje mu znacznie więcej własności) 
uśrednioną częstotliwość sygnału w krótkich interwałach czasowych. Przy- 
datność parametru gy w badaniach nad rozpoznawaniem mowy wydawała 
się przesądzona — wszak przy wszystkich wymienionych zaletach gwaranto- 
wał on ponadto prawidłowe rozpoznanie mowy, gdyż wskazywały na to 
pomyślne eksperymenty z odsłuchowym rozpoznawaniem „,przyciętego”” 
sygnału mowy przez ludzi! 

Niestety, kolejne badania i usiłowania skonstruowania systemu rozpozna- 
wania mowy opierające się na częstości przejść przez zero nie przynosiły 
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rezultatów. Parametr ten zawierał wystarczająco dużo informacji, aby ludzie 
mogli tak zdeformowany sygnał poprawnie interpretować, jednak nie za- 
wierał informacji wystarczającej do tego, aby rozpoznawanie mógł przepro- 
wadzić automat. Po raz kolejny okazało się, że możliwości mózgu są znacz- 
nie większe niż możliwości techniki. 

Usiłowano metodę tę „„reanimować”, wzbogacając ją o dodatkowe elementy. 
Obok go, będącego częstością przejść przez zero sygnału oryginalnego, 
pojawiły się parametry: częstość przejść przez zero sygnału pochodnej 
sygnału mowy g,, częstość drugiej pochodnej o, itd. Usiłowano także wy- 
korzystać częstość przejść przez zero sygnału scałkowanego g—;, 0-2, ... 
Liczba parametrów rosła, znacznie wolniej rosła jednak jakość rozpozna- 
wania, tracono natomiast zalety metody, które miały opierać się na prostocie 
i łatwości pozyskiwania parametrów do rozpoznawania. Równocześnie 
powstały atrakcyjne „konkurencyjne” techniki opisu sygnału mowy dla 
potrzeb telekomunikacji i cybernetyki, w następstwie czego parametr go 
stracił na znaczeniu, Dziś niewielu badaczy i niewiele ośrodków prowadzi 
poszukiwania metod rozpoznawania opartych na tak przetworzonym syg- 
nale mowy, zwłaszcza że w międzyczasie postęp elektroniki spowodował, 
że dostępne pamięci i techniki przetwarzania sygnałów stawiają przed bada- 
czami zupełnie nowe możliwości. 

Droga do większości spośród wzmiankowanych możliwości wiedzie przez 
sygnały cyfrowe i komputerowe metody przetwarzania. Zatem na zakończe- 
nie tego rozdziału, poświęconego analizie sygnału mowy w dziedzinie czasu, 
zajmiemy się metodami przetworzenia ciągłego, analogowego (naturalnego) 
sygnału mowy na postać cyfrową — dyskretną zarówno w dziedzinie czasu, 
jak i w dziedzinie amplitud, a w dodatku z reguły kodowaną. 

Możliwość zamiany ciągłego sygnału mowy na serię dyskretnych próbek, 
pobieranych (najczęściej) w równoodległych dyskretnych momentach czasu, 
wynika ze znanego twierdzenia Kotielnikowa-Shannona. Na podstawie 
tego twierdzenia można odtworzyć ciągły sygnał mowy x(t) ze zbioru próbek 
tego sygnału, danych w dyskretnych momentach czasu t = n T, (n= ..., 
—2 —1,0,1, 2,3, ...), gdzie 7, jest czasem upływającym między pobraniem 
kolejnych próbek (kwantem próbkowania). Można opisać to wzorem: 


CJ 


8 sinoz(t—nT,) 
x() = >. SNL) "Tr (4.16) 


n=0 


PR „. Sina og: 
Jak łatwo zauważyć, we wzorze funkcja ara „moduluje” impulsowe war- 


tości x(nT,) dla momentów t % nT,. Przebieg tej funkcji pokazano na 
rys. 4-6. Widać z niego, że wpływ określonego składnika we wzorze (4.16) 
będzie malał wraz ze wzrostem różnicy |1—nT,| przyjmując wartość równą 
dokładnie 1 dla t = nT, (sz lim = = J oraz dążąc — niestety 


a—>0 
niemonotonicznie — do zera dla |t—n7,| > co. Obrazowo można więc 
sobie przedstawić proces odtwarzania przebiegu x(t) jako składanie funkcji 


108 


4-6. Przebieg funkcji 
sin (a)fa odgrywającej 
bardzo istotną rolę we 
wszystkich 
obliczeniach 
związanych 

z próbkowaniem 
sygnałów 


a 


4-1. Przybliżona 
ilustracja 
funkcjonowania tezy 
twierdzenia 

o próbkowaniu. 
Próbkowany sygnał 
(gruba linia u góry 
wykresu) jest 
odtwarzany zgodnie 
ze wzorem (4.16) jako 
superpozycja wartości 
próbek sygnału 

w dyskretnych 
punktach n7, 
mnożonych przez 
funkcje sin(a)/a 


mem 


sina |. : 
typu a umieszczonych w momentach cząsu £ = nT, i przemnożonych 


przez składowe x(nT,). Proces ten zobrazowano na rys. 4-7, gdzie górna, 

) 4 y . w sin a 
pogrubiona linia odtwarzana jest przez sumowanie przebiegów typu tg * 
Odtworzenie sygnału x(1) na podstawie próbek x(nT,) możliwe jest w spo- 
sób prawidłowy jedynie pod warunkiem, że 


AAJEREE (4.17) 


gdzie: 
f, — graniczna częstotliwość sygnału x(t), 
©y = Zref, — odpowiadająca tej częstotliwości pulsacja kątowa. 
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Wzór (4.17) wskazuje, że minimalna częstotliwość, z:jaką należy próbkować 
sygnał, aby go wiernie odtworzyć z postaci cyfrowej, musi być dwukrotnie 
większa niż maksymalna częstotliwość składowej występującej w sygnale. 
Warunek zawarty we wzorze (4.17) :jest bardzo kategoryczny. Jeśli nie do- 
trzymamy warunku (4.17) i w próbkowanym sygnale znajdą się częstotli- 
wości większe od podwojonej częstotliwości próbkowania, to w sygnale 
odtworzonym zgodnie ze wzorem (4.16) pojawią się tak zwane zniekształce- 
nia zwierciadlane. Nie wnikając w nazbyt wiele szczegółów można stwier- 
dzić. że widmo sygnału poddanego próbkowaniu różni się od widma sygnału 
oryginalnego, gdyż sygnał zmieniając swoją formę z ciągłego na dyskretny 
wzbogaca swoje widmo o elementy wynikające z faktu próbkowania. Wyli- 
czenia, które prowadzą do tego wniosku — pomimo ich w istocie elementar- 
nego charakteru — są dość uciążliwe. Zamiast więc opierać się na wywodach 
formalnych lepiej posłużyć się intuicją. Jest faktem powszechnie znanym, 
że widmo sygnału okresowego ma charakter dyskretny. Przykładowo widmo 
czystego tonu (idealnej fali sinusoidalnej) jest złożone z pojedynczego prążka 
w punkcie odpowiadającym częstotliwości tej fali. Z symetrii prostego 
i odwrotnego przekształcenia Fouriera wynika także i odwrotna — właśnie 
tu potrzebna — prawidłowość: widmo sygnału dyskretnego w dziedzinie 
czasu (próbkowanego) będzie miało charakter okresowy. Bliższa analiza 
pokazuje, że okresowość ta polega na „powieleniu”” widma sygnału orygi- 


nalnego x(t) w odstępach (na osi częstotliwości) wynoszących TE . Zilustro- 


La 
wano to na rys. 4-8, na którym u góry pokazano przykładowe widmo syg- 
nału, niżej prążki pojawiające się przy prawidłowym próbkowaniu sygnału 


(z, = zy) oraz widmo sygnału poddanego próbkowaniu. Widać, że przy 
g 


poprawnym próbkowaniu poszczególne części widma nie zachodzą na siebie 
i można je prawidłowo odtworzyć. Na rysunku 4-8d i e pokazano sytuację 
powstającą przy niewłaściwie wybranym okresie próbkowania. Zbyt małe 
wartości częstotliwości próbkowania f, = z powodują nakładanie się 
14 

kolejnych części widma sygnału próbkowanego, w wyniku czego widmo 
ulega zniekształceniu. Oczywiste jest, że przy odtwarzaniu własności syg- 
nału z takich —— wadliwie dobranych —- próbek czasowych dojdzie do de- 
formacji sygnału — szczególnie w zakresie jego wysokoczęstotliwościowych 
składników. 

Na marginesie tych rozważań można odnotować jeszcze jeden — dość oczy- 
wisty — fakt. Otóż przy przejściu od sygnału dyskretnego (cyfrowego) do 
analogowego konieczna będzie filtracja dolnoprzepustowa dla „wycięcia” 
większych częstotliwości z widma sygnału (rys. 4-9). Ponadto odtwarzając 
sygnał z postaci dyskretnej do postaci ciągłej, używa się tak zwanych inter- 
polatorów, a nie korzysta się ze wzoru (4.16), którego użycie wiąże się z uciąż- 
liwymi i czasochłonnymi przeliczeniami. Zamiast więc obliczać wartość 
odtwarzanego sygnału dla punktów t 54 nT, można aproksymować prze- 
bieg funkcją schodkową (to znaczy przyjmować x(t) = x(nT,) dla wszyst- 
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4-8. Ilustracja zjawiska 
aliasingu: oryginalny 
(nie próbkowany) 
sygnał (a) ma widmo 
ograniczone (—/,, 
+4). Widmo sygnału 
próbkującego (b) 
składa się z prążków 
rozmieszczonych 

w odległościach 

f = JT, wzdłuż 
całej osi częstotliwości, 
W wyniku nałożenia 
sygnału próbkowania 
na przebieg sygnału 
otrzymuje się sygnał 
dyskretny 
(spróbkowany), którego 
widmo ma charakter 
okresowy i składa się 
z widm oryginalnego 
procesu (a) 
powtarzanych 

w odstępach /,. Jeśli 
22 f,, to nie 
dochodzi do nakładania 
się widm i ich 
zniekształcenia (c). 
Wybór za małej 
częstości próbkowania 
J, powoduje 
zniekształcenie widma 
sygnału próbkowanego 
(e). Zjawisko to 
nazywane jest 
nakładaniem się widm 
lub aliasingiem 


4-9. Filtr 
dolnoprzepustowy 
(charakterystyka dana 
linią przerywaną) 
powoduje wycięcie 
jednej części 
periodycznego widma 
sygnału próbkowanego 
i pozwala na jego 
odtworzenie w procesie 
przetwarzania 
cyfrowo-analogowego 


2, 


Przepustowośo 


+ za 
Częstotliwość 


kich t € [nT,, (n+ 


+1)7,]). Takie założenie upraszcza obliczenia i konstruk- 


cję przetwornika, ale powoduje, że odtworzony sygnał ma nieciągły przebieg, 
co w wielu przypadkach utrudnia jego prawidłowe wykorzystanie. Z tego 
powodu używa się także interpolatorów wyższych rzędów, które odtwarzają 
sygnał w przedziale [nT,, (n+1)7,] aproksymując go liniowo między war- 
tościami x(nT,) oraz x( (n+ 1)T,), względnie wykorzystując aproksymację 
kwadratową, czyli tworząc łuki paraboli opartej na punktach x( (n—1)7;), 
x(nT,) oraz x( (n+1)T,). Na rysunku 4-10 pokazano przebieg czasowy 
odtworzony na podstawie sygnału poddanego próbkowaniu przy przyjęciu 


aproksymacji lini 
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owej, kwadratowej oraz wielomianem trzeciego stopnia. 


Widać, że przy aproksymacji parabolicznej dokładność odtworzenia sygnału 
jest zadowalająca i wyższe stopnie interpolatorów niewiele polepszają jakość 
odtworzonego sygnału. 

Tak obszerna dyskusja sposobów odtwarzania wygnału analogowego z pos- 
taci cyfrowej wydaje się na pozór zbyteczna w kontekście głównego (i trud- 


4-10. Przy 
przetwarzaniu 
cyfrowo-analogowym 
„wygładza”” się 
odtworzony przebieg 
za pomocą 
interpolatorów. Rząd 
interpolatora wpływa 
na dokładność 

i gładkość odtworzonej 
krzywej, jednak 
główne korzyści 
odnosi się przy 
zastosowaniu 
interpolacji pierwszego 
rzędu (a), która 
zmienia rwaną, 
schodkową odpowiedź 
przetwornika na 
ciągły sygnał, oraz 
drugiego rzędu 
(aproksymacja 

z wykorzystaniem 
parabol) — (b). 
Wprowadzenie 
wyższego rzędu 
interpolacji (c) nie 
daje dalszych, 
zauważalnych korzyści 
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niejszego do praktycznej realizacji) zagadnienia przetwarzania sygnału 
analogowego na postać cyfrową. Tymczasem sposób wykorzystania sygnału 
cyfrowego po konwersji może decydować o pożądanym sposobie konwersji. 
Praktycznie nie jest możliwe do zrealizowania dokonanie sumowania wg 
wzoru (4.16) nieskończonej liczby składników. Zatem dokładne odtworze- 
nie anałogowego sygnału za pomocą sygnału cyfrowego jest niemożliwe. 
Zastępując we wzorze (4.16) nieskończoną sumę przez sumę skończonej 
liczby składników popełnia się błąd tym większy, im mniej składników 


1i2 


wlicza się do sumy. Zakładając, że przetwarzana funkcja ma postać x(t) = 
= |] można nawet podać analityczną zależność, określającą wielkość błędu A 
w funkcji liczby branych pod uwagę elementów sumy 4. Zależność ta wy- 
raża się wzorem: 
457 (-0* 
A(M) = 1— w Lo Żk+T (4.18) 
k=o 
z którego między innymi można wyliczyć niezbędną liczbę wyrazów sumy, 
koniecznych do zapewnienia założonej dokładności odtworzenia sygnału. 
Przykładowo dla dokładności A < 0,01 konieczne jest uwzględnienie przy- 
najmniej M = 31 próbek, a dla osiągnięcia A < 0,001 konieczne jest użycie 
ponad dwustu składników sumy! Pomijając złożoność obliczeniową i koszt 
takich obliczeń, używanie wzoru (4.16) z dużą liczbą uwzgłędnianych skład- 
ników wprowadza kolejny niekorzystny element — opóźnienie. Istotnie, 
posługując się wzorem (4.16) (w zmodyfikowanej postaci, uwzględniającej 
skończony zakres sumowania) musimy oczekiwać przynajmniej M Ty sekund 
na odtworzenie prawidłowej wartości sygnału. Jest to w większości przypad- 
ków niedopuszczalna strata czasu — zbyteczna, kiedy rutynowo posługuje 
się wspomnianymi wyżej technikami interpolacji. Ale skoro nie zamierza się 
opierać na wzorze (4.16) w zakresie odtwarzania sygnału, to nie trzeba także 
brać pod uwagę wynikającej z niego zależności (4.17). Innymi słowy, de- 
cydując się na odtwarzanie sygnału z pewnym błędem można oprzeć się przy 
doborze częstości próbkowania na wielkości tego błędu (przy założonym 
sposobie interpolacji). Warto podkreślić, że otrzymana tą drogą częstotli- 
wość próbkowania jest większa od wynikającej ze wzoru (4.17), co jest 
korzystne z punktu widzenia dokładności odtworzenia sygnału —i nie- 
korzystne z punktu widzenia ilości informacji cyfrowych, które trzeba prze- 
twarzać. Oszacowanie częstotliwości próbkowania na podstawie wielkości 
dopuszczalnego błędu A może być dane wzorem: 


A = T,sup 


| = To,lsupix()] (4.19) 


To nowe oszacowanie także zależy od częstości granicznej w,, ale łatwo się 
przekonać, że przy rozsądnych wymaganiach odnośnie dokładności A 
oszacowania 7, są ostrzejsze niż wynikające ze wzoru (4.17). 
Dyskretyzacja amplitudy sygnału (tzw. kwantyzacja) wprowadza naturalnie 
błędy, związane z tym, że przebieg cyfrowy x, (t) przyjmuje jedynie ustalone 
dyskretne wartości, identyczne z wartościami przebiegu analogowego x(t) 
jedynie w pewnych momentach czasu. W rezultacie błąd kwantowania 
e, (t), wyrażający się wzorem 


e(t) = x(t) — x(t) (4.20) 
jest różny od zera w niemal wszystkich momentach czasu. Zilustrowano to 
na rys. 4-11. 


Podstawowe znaczenie dla procesu przetwarzania analogowo-cyfrowego na 
omawianym tu etapie kwantowania amplitudy ma wybór liczby poziomów 
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kwantowania. Ponieważ amplituda szumu kwantowania e, (t) wynosi po- 
łowę wielkości odstępu pomiędzy sąsiednimi poziomami kwantowanego 
sygnału, wobec tego wybór większej liczby poziomów kwantowania gwaran- 
tuje większą dokładność i mniejsze szumy, a co za tym idzie — powinien 
być preferowany. Niestety wybór taki wiąże się z kosztem: im więcej wy- 
różnia się poziomów, tym więcej bitów będzie musiał mieć kod cyfrowy 
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4-11, Kwantowanie amplitudy: Przebieg skwantowany xy(£) (połówka sinusoidy) różni się od przebiegu 
oryginalnego x(r), a pokazany niżej przebieg błędu e, (r) nazywany jest zwykle szumem kwantyzacji. 
Wielkość tego szumu zależy głównie od kroku (przyrostu) kwantyzacji 


reprezentujący dane w pamięci systemu przetwarzającego, a także odpo- 
wiednio większy i kosztowniejszy będzie przetwornik. Przyjmuje się niekiedy, 
że liczba bitów przetwornika n powinna być związana z potrzebnym sto- 
sunkiem poziomu sygnału do szumu SNR wyrażonym w decybelach. Przy- 
bliżony wzór ujmujący tę zależność przytaczany jest często w postaci 


SNR 
EZR, 


6 (4.21) 


Oznacza to, że przy wymaganym zakresie dynamiki wynoszącym 90 dB 
trzeba posłużyć się przetwornikiem 15-bitowym, wyróżniającym w próbko- 
wanym sygnale 32 768 poziomów. Taki przetwornik (a raczej jego bardziej 
typowy odpowiednik 16-bitowy) jest preferowany z uwagi na fakt, że istnieje 
bardzo wiele gotowych systemów cyfrowych, pracujących przy długości 
słowa wynoszącej 16 bitów. Jest on jednak bardzo drogi. Znacznie tańszy 
jest przetwornik 12-bitowy, zapewniający dynamikę powyżej siedemdzie- 
sięciu decybeli (wyróżniający 4096 poziomów amplitudy sygnału). Dla celów 
technicznych 12 bitów okazuje się jednak nadal zbyt wysokim kosztem 
i w powszechnym użyciu (na przykład w telefonii cyfrowej) są przetworniki 
8-bitowe. Nominalnie zapewniają one zaledwie niespełna 50 dB zakres 
dynamiki, w rzeczywistości jednak dokładność przetwarzania i jakość 
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Wyjście kompresora 


przetworzonego sygnału może być w tych przetwornikach nie gorsza niż 
w 12-bitowych, dzięki zastosowaniu omówionej kompresji amplitudy. Na 
rysunku 4-12 pokazano, że dzięki zastosowaniu kompresora amplitudy 
równomierne kwantowanie amplitudy sygnału na wyjściu kompresora od- 
powiada nierównomiernemu kwantowaniu sygnału wejściowego, rozumia- 
nemu w ten sposób, że małe wartości sygnału są kwantowane przy użyciu 
„gęściej”” rozmieszczonych poziomów dyskretyzacji. 
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4-12. Charakterystyka typowego kompresora amplitudy. Widać, że równym odstępom poziomów 
kwantyzacji na wyjściu kompresora odpowiadają nierówne (rosnące ze wzrostem wartości X) przedziały 
wartości wejściowej. W ten sposób poziomy kwantyzacji mogą być rozłożone równomiernie (co 
upraszcza budowę przetwornika analogowo-cyfrowego), a przedziały dyskretyzacji są korzystnie 
zagęszczone dla małych wartości wejściowego sygnału, co polepsza stosunek sygnał/szum 


Proces kwantowania amplitudy sygnału mowy może być także źródłem 
subtelnych błędów o dość nieoczekiwanym pochodzeniu. Jak wspomniano, 
proces kwantowania zamienia gładki przebieg funkcji x(t) na schodkowy 
w kształcie przebieg x„(t) (por. rys. 4-11). Taki przebieg schodkowy za- 
wiera wyższe harmoniczne, nieobecne w oryginalnym sygnale. Harmoniczne 
te przypadają na większe częstotliwości od uwzględnianej przy projektowa- 
niu systemu próbkującego czasowo sygnał f, i mogą ulegać zdudnieniu 
z częstotliwością próbkowania f,. W konsekwencji powstawać mogą skła- 
dowe dodatkowe o częstotliwościach mieszczących się w granicach 0--/f4, 
zniekształcające przetwarzany sygnał. Błąd ten, zwany szumem granulacji 
albo „ćwierkaniem””, bywa bardzo uciążliwy, gdyż pojawia się szczególnie 
przy małych amplitudach przetwarzanego sygnału. Jest to logiczne: dla 
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słabych sygnałów różnica między funkcją schodkową a ciągłą jest bardziej 
istotna. Sposobem zwalczania omówionego zjawiska jest dodawanie do 
przetwarzanego sygnału składowych szumowych (tzw. dither noise) lub ce- 
lowe wprowadzenie niestacjonarności pracy przetwornika. W przypadku 
sygnału mowy, kiedy użyty zakres amplitud sygnału wejściowego x(£) będzie 
przekraczać rozpiętość poziomów przetwarzania, to sygnał ulegnie „,przy- 
cięciu” i jego charakterystyka wzbogaci się o wyższe częstotliwości, przekra- 
czające przyjętą wartość f, -— ze wszystkimi wyżej omówionymi konsekwen- 
cjami. Zjawisko takie zagraża szczególnie wtedy, gdy filtr dolnoprzepustowy, 
ograniczający pasmo do założonej wartości /,, poprzedza w przetworniku 
(rys. 4-13) układ kwantujący amplitudę sygnału. Zakres przetwarzanych 

4-13, Układ 

przetwornika, 


w którym może zajść 
zniekształcenie sygnału 


na skutek | 

dyskryminacji Filtr Dyskretyzacja Układ 
amplitudy sygnału dolnoprzepustowy amplitudy próbkujący 
filtrowanego 


amplitud powinien być wówczas przynajmniej o 3 dB większy od wartości 
szczytowych sygnału wejściowego, gdyż proces filtracji dolnoprzepustowej 
na przykład fali prostokątnej dostarcza przebiegu o wartości szczytowej 
większej niż sygnał wejściowy. 

Po przetworzeniu amplitudy sygnału na postać dyskretną z użyciem omó- 
wionych wyżej metod kwantowania oraz po jego próbkowaniu w dziedzinie 
czasu sygnał ma postać cyfrową i może być przetwarzany metodami cyfro- 
wymi — nie przestając być sygnałem w dziedzinie czasu. Przed jakimkolwiek 
przetworzeniem sygnał musi, na ogół, być zakodowany. Przy cyfrowym 
przetwarzaniu sygnału mowy można stosować dowolne formy kodowania 
cyfrowej postaci sygnału, przy czym najczęściej wykorzystuje się prosty kod 
binarny, w którym poszczególnym wartościom skwantowanego sygnału 
odpowiadają wprost liczby dwójkowe, wynikające z zamiany odpowiedniej 
wartości z systemu dziesiętnego na dwójkowy. Typowym zabiegiem, jaki 
się tu stosuje dla wygody reprezentacji odpowiednich wartości, jest „przesu- 
nięcie” sygnału w dziedzinie amplitud o wartość odpowiadającą maksy- 
malnej amplitudzie sygnału. Stosuje się to w celu uniknięcia konieczności 
kodowania liczb ujemnych. W rezultacie sygnał przyjmujący (po skwanto- 
waniu) wartości od — 127 do +128 zamieniony zostaje na sygnał zmienia- 
jący się w granicach od O do 255 (dla 8-bitowego przetwornika). 

Nieco bardziej złożona sytuacja występuje w przypadku wykorzystywania 
cyfrowej postaci sygnału mowy w telekomunikacji. O ile bowiem badacz 
lub automatyk wykorzystujący sygnał mowy w swoim komputerze ma pełną 
swobodę wyboru sposobu kodowania, o tyle inżynier łączności musi tak 
przedstawiać sygnał w nadajniku, aby był on jednoznacznie łatwo interpre- 
towany w odbiorniku. Wynika z tego między innymi konieczność podpo- 
rządkowania się ścisłym wymaganiom norm międzynarodowych, a to ozna- 
cza, że z niezliczonej mnogości różnych form przedstawienia sygnału wy- 
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brane zostają niektóre — i tylko te mogą być stosowane. W przypadku 
telekomunikacji wykorzystywane są więc dwie jedynie formy kodowania 
sygnału: modulacja delta DM i modulacja impulsowo-kodowa PCM. 
Używane także „mieszane” techniki: adaptacyjna modulacja delta ADM 
i różnicowa modułacja impulsowo-kodowa DPCM mają mniejsze znaczenie. 
Modulacja impułsowo-kodowa jest w kontekście wszystkiego, co powiedzia- 
no wyżej, prostsza do opisania, choć bardziej złożona w realizacji. Nadajnik 
w systemie PCM dokonuje (rys. 4-14) filtracji dolnoprzepustowej sygnału 


Kod 
Filtracja Kompresja |-poors]] Kodowanie nięwy 


4-14. Struktura nadajnika sygnału w systemie PCM 


4-15. Przetwornik 
(nadajnik sygnału 
cyfrowego) w układzie 


mowy (najczęściej stosuje się filtr o częstotliwości granicznej 3400 Hz), 
próbkowania sygnału (zwykle z częstością 8 kHz, co oznacza, że odstęp 
zabezpieczający przed nakładaniem się widm wynosi 1200 Hz), kompresji 
amplitud sygnału (według prawa 4 lub «) oraz przetwarzania analogowo 
-cyfrowego (zwykle wyróżnia się 256 poziomów sygnału i wyraża się je za 
pomocą 8-bitowego słowa binarnego, co w połączeniu ze wspomnianą 
kompresją amplitud daje w przybliżeniu ten sam efekt, jak przetwarzanie 
12-bitowe). Kod binarny na wyjściu przetwornika jest przekształcany na kod 
liniowy o własnościach zależnych od kanału, w którym będzie dokonywana 
transmisja sygnału. Kody takie mogą mieć w ogólnym przypadku złożony 
charakter, w szczególności mogą być zabezpieczane przed zniekształce- 
niem przekazywanej wiadomości odpowiednimi bitami nadmiarowymi, co 
pozwala zarówno wykrywać ewentualne błędy transmisji, a także w nie- 
których przypadkach poprawiać zniekształcone kody. Problematyka kodów 
redundancyjnych i sposobów transmisji sygnałów daleko wykracza jednak 
poza zamierzone ramy tej książki i dlatego będzie tu pominięta. 


Sygnat 
mowy 


Przerzutnik D 


Kod 
binarny m 


z modulacją delta Integrator 


Alternatywny sposób kodowania, wspomniana już modulacja delta, stoso- 
wany jest głównie ze względu na prostą realizację układową. W nadajniku 
sygnału (rys. 4-15) pracującym przy użyciu tej metody modulacji nie wy- 
stępują de facto wspomniane wyżej procesy próbkowania, kwantyzacji i ko- 
dowania, a i odbiornik jest tu bardzo uproszczony. Zadanie nadajnika 
sprowadza się bowiem do porównywania liniowo rosnącej lub malejącej 
ze stałym nachyleniem (rys. 4-16) aproksymacji sygnału z jego rzeczywistą 
wartością. Na wyjściu nadajnika pojawia się przy tym sygnał 1, jeśli rzeczy- 
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wista wartość sygnału jest większa od aproksymowanej i O, jeśli wartość 
aproksymówana przewyższa rzeczywistą. Realizacja układowa tej zasady 
działania wymaga posiadania komparatora, przerzutnika i integratora, 
a odtwarzanie sygnału -— samego integratora (por. rys. 4-15), jest więc, ze 
sprzętowego punktu widzenia bez porównania tańsza niż PCM. Metoda 


4-16. Przebiegi wybranych sygnałów czasowych w przetworniku z rys. 4-17. Istota działania modułatora 
delta polega, jak wynika z analizy przebiegów, na porównaniu aktualnej wartości sygnału z jego 
aproksymacją za pomocą sygnału z integratora (narastającego lub opadającego w czasie ze stałym 
nachyleniem). Gdy sygnał wejściowy ma wartość większą niż aproksymowany wysyłany jest sygnał 

z = |, w przeciwnym przypadku z = 0. Pewna strefa nieczułości komparatora porównującego sygnały 
Xi Y jest korzystna, gdyż zmniejsza częstotliwość wysyłania sygnałów z do linii — chociaż odbywa się to 
kosztem zwiększonego „„myszkowania” sygnału 


4.2. 


modulacji delta zapewnia też dużą wartość stosunku sygnału do szumu 
(bez trudu osiąga się SNR = 65 dB). Na tym jednak jej zalety się kończą. 
Do niewątpliwych wad modulacji delta należą wprowadzane przez nią za- 
kłócenia -— dwojakiego rodzaju, w zależności od charakterystyki przetwa- 
rzanego sygnału. Pierwsza ewentualność pogorszenia jakości sygnału wy- 
stępuje dla sygnałów o dużych amplitudach i wysokich częstotliwościach. 
Przetwornik nie nadąża wówczas za zmianami sygnału i rozbieżność po- 
między sygnałem rzeczywistym a aproksymowanym może wówczas osiągać 
duże wartości. Błąd ten, jakkolwiek łatwo zauważalny przy porównywaniu 
przebiegów czasowych sygnału oryginalnego i aproksymowanego, jest ma- 
skowany przez dużą energię sygnału i może być uznany za mniej uciążliwy 
niż błąd przeciwny, polegający na pojawianiu się oscylacji sygnału wokół 
wartości rzeczywistej dla sygnałów mniejszych niż pojedynczy dodatni 
lub ujemny przyrost sygnału aproksymującego. Obok wymienionych szu- 
mów kwantyzacji, towarzyszących modulacji delta, ma ona dodatkowo tę 
niekorzystną własność, że wymaga na ogół znacznie większej szybkości 
przesyłania bitów niż w systemach PCM o tej samej jakości transmisji. 


Opis sygnału mowy w dziedzinie częstotliwości 


Opis sygnału w dziedzinie częstotliwości jest podstawową, rutynowo stoso- 
waną i w istocie najbardziej przydatną formą jego opisu. Użyteczność wid- 
mowej prezentacji sygnału — w szczególności w odniesieniu do sygnału 
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mowy — wynika z kilku faktów, których wyliczenie ułatwi skoncentrowanie 
uwagi przy śledzeniu dałszego tekstu na zagadnieniach najważniejszych dla 
całości problemu. Początkowe przesłanki wiążą się z wiadomościami po- 
danymi w rozdz. 2 i 3. Jak łatwo było zauważyć, wynika z nich między in- 
nymi fakt, że w procesie artykułacji mowy kształtowana :;jest głównie ob- 
wiednia amplitudowo-częstotliwościowa sygnału (poprzez odpowiednio 
formowaną strukturę rezonansową traktu głosowego), w procesie percepcji 
zaś przed etapem analizy sygnału w sieciach nerwowych mózgu następuje 
etap wydzielenia składowych o poszczególnych częstotliwościach przez 
wyspecjalizowane struktury ucha wewnętrznego (błona podstawna, ko- 
mórki rzęskowe, spiro- i ortoneurony zwoju spiralnego). Zatem biologiczny 
nadajnik formuje, a biologiczny odbiornik analizuje — głównie widmo 
sygnału. Fakt ten przemawia — obok innych, przytoczonych dałej argu- 
mentów — za stosowaniem również metod częstotliwościowych do analizy 
sygnału mowy. 

Analiza widmowa może być realizowana wieloma metodami i może służyć 
do różnych celów; w rozdziale tym będziemy w stanie przedyskutować je- 
dynie niektóre spośród możliwych metod i wskazać kilka bardziej typowych 
celów analizy widmowej sygnału mowy. Obszerniejsze omówienia poruszo- 
nych tu tematów można znaleźć w literaturze wymienionej na końcu książki. 
W odniesieniu do wielu sygnałów, wśród których jest też i sygnał mowy, 
prawdziwe jest twierdzenie, iż świadomie kształtowane składowe sygnału 
mieszczą się głównie w jego amplitudowo-częstotliwościowej charakterys- 
tyce, podczas gdy wpływ czynników losowych determinuje w pierwszym 
rzędzie strukturę charakterystyk fazowo-częstotliwościowych. Rozważając 
sygnał w dziedzinie czasu stwierdza się równoczesny wpływ zarówno sto- 
sunków amplitudowych, jak i fazowych, na wypadkowy przebieg sygnału. 
Po dokonaniu analizy widmowej rozdzielenie wymienionych składników 
staje się banalnie proste. Podobnie, choć przy użyciu nieco bardziej złożo- 
nych metod, analiza częstotliwościowa pozwala rozróżnić te własności 
sygnału, za które odpowiedzialne jest źródło tonu, od tych, które są wy- 
nikiem procesu modulacji sygnału w narządach mowy. Przydatność takiej 
analizy do rozpoznawania mowy jest w świetle wszystkich wcześniej przed- 
stawionych rozważań bezdyskusyjna, zaś samą technikę, wykorzystującą 
pojęcie tzw. cepstrum sygnału, omówimy szczegółowo nieco dalej. 
Punktem wyjścia we wszystkich metodach wykorzystujących analizę spek- 
tralną jest para transformacji przekształcenia Fouriera: 

— przekształcenie proste 


GQ) = Flg(t)] (4.23) 
— przekształcenie odwrotne 
gli) = 87'1G()] (4.24) 


We wzorach (4.23) i (4.24) funkcja g(t) oznacza czasowy przebieg sygnału 
mowy, a G(f) oznacza jego widmo. W odniesieniu do sygnału mowy można 
przyjąć, że g(t) jest funkcją przyjmującą wartości rzeczywiste; wówczas 


119 


G(f) jest funkcją przyjmującą wartości zespolone oraz jest to funkcja pa- 
rzyście sprzężona: 


GO = G*-1) (4.25) 


Gdzie G* oznacza liczbę zespoloną sprzężoną w stosunku do G. Wobec 
tego funkcję G(f) można zapisać: 


GQ) = IG(Fjie' arg G(f) (4.26) 
Wówczas moduł |G(f)| odpowiada amplitudzie składowej o częstotliwości f 
w wejściowym sygnale g(t), zaś argument arg G(f) jest kątem przesunięcia 
fazowego składowej o częstotliwości /'w sygnale g(t) w chwili £ = 0. Ważną 
dla dalszej analizy własnością przekształcenia Fouriera jest zachowywanie 
niezmienniczości energetycznej. Własność ta, wiązana w literaturze z naz- 
wiskiem Persevala, umożliwia obliczanie mocy sygnału na dwa sposoby: 
w dziedzinie czasu: przez całkowanie kwadratu wartości sygnału w ustalo- 
nym przedziale czasu 7: 

1 T 
P = = (I s(OJPdt (4.27) 
0 
lub w dziedzinie częstotliwości — przez całkowanie charakterystyki sygnału 
w pełnym pasmie częstotliwości Fy-- Fy: 


F, 
P = | GQ): 6*Daf (4.28) 

FR 
Postać wzorów (4.23) i (4.24) zależy od własności sygnału poddawanego 
analizie. Z punktu widzenia analizy sygnału mowy interesujące będzie roz- 
ważenie czterech przypadków szczególnych: 
— sygnału okresowego, ciągłego — na przykład stany ustalone samogło- 
sek; 
— sygnału szumowego, ciągłego — na przykład spółgłoski szumowe; 
— sygnału impulsowego (próbkowanego); 
— sygnału dyskretnego (cyfrowego) zarówno w dziedzinie czasu, jak i w 
dziedzinie częstotliwości. 
Dla sygnału okresowego i ciągłego o okresie wynoszącym 7 widmo G(f) 
jest funkcją dyskretną, przyjmującą wartości różne od zera jedynie dla / 
będących całkowitymi wielokrotnościami częstotliwości podstawowej f, = 


= p Oznaczając przez f, =k f, = k możemy w tym przypadku za- 


T 
leżność (4.23) zapisać w postaci: 
1 T/2 
GU) = -p || s(je- meat (4.29) 


-T/2 
Przekształcenie odwrotne (4.24) ma w tym przypadku postać: 
gl) = Gee" (4.30) 
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i daje w wyniku ponownie ciągłą, okresową funkcję czasu. Warto zwrócić 
uwagę, że we wzorze (4.30), w rzeczywistych przypadkach, zawsze można 
wskazać taką częstość graniczną F,, że dla wszystkich f, > F, zachodzi 
G(,) = 0. Wobec czego nie jest konieczne sumowanie dla k > 00. Podobnie 
problem ujemnych wartości k nie nastręcza trudności praktycznych w świet- 
le zależności (4.25). 

Sygnał, który nie jest periodyczny, w szczególności sygnał szumowy, może 
być traktowany jako sygnał o okresie zmierzającym do nieskończoności. 
W takim przypadku odstępy pomiędzy prążkami dyskretnego widma zmie- 
rzają do zera (lim 1/T = fx—f4-+1 = 0) i widmo staje się ciągłe. Przekształ- 

00 


cenia (4.23) i (4.24) mają w tym przypadku postać 
I 
G(f) = ( g(t)e-""fidi (4.31) 
0 
gl) = j af)e "af (4.32) 
10 
i są — jeśli pominąć znak w wykładniku — identyczne, co upraszcza wiele 
rozważań praktycznych:'Często przyjmuje się, że para wzorów (4.31) i (4.32) 
stanowi właściwą definicję przekształcenia Fouriera, pozostałe zaś wzory 
szczegółowe są przypadkami szczególnymi. W istocie przydatność wzorów 
(4.31) i (4.32) organicza się do rozważań formalnych z uwagi na nieskończo- 
ne granice całek w nich występujących. W warunkach rzeczywistych nawet 
mając do czynienia z funkcjami ciągłymi zarówno w dziedzinie czasu, jak 
i w dziedzinie częstotliwości, zmuszeni jesteśmy stosować warianty przyto- 
czonych wzorów o określonych granicach całkowania: 


T 
G() = | g(tjePmtdr (4.33) 
=T 
F 
sli) = (| G(De""df (4.34) 
-F 


co jest równoważne użyciu wzorów definicyjnych (4.31) i (4.32), w których 
funkcje podcałkowe g(t) i G(f) odpowiednio przemnożone zostały przez 
odpowiednie „funkcje okna”: czasowe h(t) i częstotliwościowe H(f). Mają 
one tę własność, że przyjmują wartość zero poza przedziałem (-—- T, T) lub 
(—F, F) odpowiednio. Możemy więc zapisać: 


G1) = i gltje?"/"h(rydt (4.35) 
200) = j G(De"H(Ddf (4.36) 


—00 


Przejście od przekształcenia (4.31), (4.32) do przekształcenia (4.33), (4.34) 
lub równoważnego mu przekształcenia (4.35), (4.36) nie odbywa się bez- 
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karnie. Można udowodnić, że mnożeniu w całkach (4.35) i (4.36) odpowiada 
operacja splotu po transformacji. W rezultacie funkcja G(r) obliczona 
według wzoru (4.35) jest splotem w dziedzinie częstotliwości rzeczywistego 
widma G(f) oraz widma funkcji okna h(r). Dla funkcji okna w postaci: 


A k dla —„T<t<T 7 
= 0 poza wskazanym przedziałem czasu 857 
widmo ma postać 
kQ) = qsinGFT) (4.38) 


(nfT) 
W wyniku splotu tej funkcji z rzeczywistym widmem G(f) jest uzyskiwany 
przebieg widma przybliżonego GD zgodnie ze wzorem 
00 
60) = | GU-Dhla)dą (4.39) 
—0 

Łatwo zauważyć, że w ogólnym przypadku funkcje G(f) i GD mogą się 
znacznie różnić, co ogranicza praktyczną stosowalność wzorów (4.33) 
i (4.34), jako aproksymacji zależności (4.31) i (4.32), a także całego omówio- 
nego podejścia. Wprawdzie dobierając odpowiednio funkcje okna h(t) 
i H(f) można wskazane niekorzystne wpływy minimalizować, stosując np. 
okno typu cos?(x). Przytoczona dyskusja miała na celu uzasadnienie celo- 
wości rozważania przez nas licznych przypadków szczegółowych i praktycz- 
nych postaci transformacji dla tych przypadków, gdyż — jak wspomniano 
— z praktycznego punktu widzenia nieuzasadniony jest pogląd, iż są to 
jedynie przypadki szczególne transformacji (4.31) i (4.32). 
Kolejny szczegółowy rozważany przez nas przypadek dotyczy funkcji g(t) 
próbkowanej (równomiernie) w dziedzinie czasu. Kolejne próbki czasowe 
sygnału g(t) brane w odstępach czasu Ar (czyli w momentach czasu t, = 
=nAt) oznaczone być mogą przez g(t„) lub jeszcze prościej g(n). Widmo 
takiej próbkowanej funkcji ma charakter okresowy — częstotliwość po- 
wtarzania wynosi f, = IJAt. Warto zwrócić uwagę na charakterystyczną 
symetrię, jaka zachodzi między rozważanym tu przypadkiem a uprzednio 
dyskutowanym (por. wzory (4.29) i (4.30)) przypadkiem funkcji okresowej 
w dziedzinie czasu (rys. 4-17). Widmo funkcji okresowej ma charakter dys- 
kretny, natomiast widmo funkcji dyskretnej ma charakter okresowy. Z włas- 
ności okresowości widma funkcji dyskretnej (próbkowanej) korzystano już 
wcześniej przy dyskutowaniu twierdzenia o próbkowaniu przy przetwarza- 
niu analogowo-cyfrowym. Powracając do transformacji Fouriera funkcji 
próbkowanej możemy zapisać 


00 
G()= NV) s(t)e ra (4.40) 
paz) 
nEzo 
oraz, wykorzystując okresowość widma, 
Jsi2 


1 2nft, 
s(t.) = EE G(J)ezsftndf (4.41) 
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Rozwój metod cyfrowej analizy sygnału mowy spowodował wzrost zainte- 
resowania przypadkiem, kiedy zarówno w dziedzinie czasu, jak i w dziedzi- 
nie częstotliwości mamy do czynienia z funkcjami dyskretnymi. Dyskretna 
transformacja Fouriera przeprowadzana bywa zwykle z wykorzystaniem 
algorytmu FFT (szybkiej transformaty Fouriera, zaproponowanego w 1965 
roku przez J, W. Cooleya i J. W. Tukeya). Dyskretne przekształcenie Fou- 
riera, realizowane z zasady na ograniczonym zbiorze próbek w dziedzinie 
czasu i w takim samym co do liczebności zbiorze dyskretnych wartości 


m 
j 
A 
z 
- 
B 
są 
N 
— 
NIA 
NY 
DS 
i 
e 


Funkcja okresowa Funkcja dyskretna 


4-17. Porównanie dyskretności i okresowości w dziedzinie czasu i w dziedzinie amplitudy. Symetria 
prostego i odwrotnego przekształcenia Fouriera powoduje, że sygnał okresowy w dziedzinie czasu ma 
dyskretne widmo (harmoniczne), funkcja dyskretna zaś w dziedzinie czasu (próbkowany sygnał) 

ma widmo okresowe 


częstotliwości w dziedzinie amplitud, zakłada okresowość zarówno funkcji 
czasu, jak i widma. Wynika to z dotychczasowych rozważań. Dyskretna 
funkcja czasu ma okresowe widmo, dyskretne widmo odpowiada zaś okre- 
sowej funkcji w dziedzinie czasu -— wniosek jest więc oczywisty, Oznaczając 
wartości funkcji czasu w dyskretnych momentach t, przez g(n) oraz ozna- 
czając dyskretne wartości widma w punktach odpowiadających częstotli- 
wości /, przez G(k) możemy obecnie parę odwzorowań (4.23) i (4.24) za- 
pisać w postaci: 


N-1 
GG) = * 3 gle" "w” (4.42) 
n=Q0 
1 <I 2rkn 
26) = ję > G(kje' "W (4.43) 
n=0Q 


gdzie bardzo ważny parametr N oznacza łączną liczbę dyskretnych odczytów 
funkcji czasu g(n) lub liczbę dyskretnych prążków w dziedzinie częstotli- 
wości. 

W badaniach nad sygnałem mowy rozpatrywana jest zwykle charakterys- 
tyka amplitudowo-częstotliwościowa, czyli moduł G(f). Jak wiadomo, for- 
malnie można go wyznaczyć ze wzoru: 


IGQl = VGD6D) (4.44) 


Charakterystyka fazowa jest mniej przydatna i będzie rozważana dalej. 
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Przytaczane wzory, pozwalające wyznaczać G(f), a następnie potrzebną 
charakterystykę amplitudowo-częstotliwościową, są bez wyjątku nieprzy- 
datne praktycznie. Nawet pozornie łatwe do użycia przy wykorzystaniu 
techniki cyfrowej wzory (4.42) i (4.33) są niepraktyczne, gdyż wyliczenie 
widma za ich pomocą wymaga zastosowania N?* mnożeń zmiennych zespo- 
lonych, podczas gdy wzmiankowany już algorytm FFT zakłada konieczność 
wykonania jedynie N log N mnożeń, co oznacza (przy typowych zbiorach 
danych, gdzie N > 1000) ponad stukrotne przyspieszenie obliczeń. 
Praktyczne metody wyznaczania widma sygnału mowy mogą być więc 
zebrane w trzy grupy: 
— wydzielanie składowych o różnych częstotliwościach za pomocą filtrów 
analogowych; 
-— wydzielanie pasm częstotliwości za pomocą filtrów cyfrowych; 
— analiza cyfrowa z wykorzystaniem algorytmów FFT oraz Zoom-FFT. 
Decydując się na analizę analogową musimy dokonać wyboru pasma sto- 
sowanego zestawu filtrów. Istnieją dwie możliwości: można wybrać pasma 
poszczegółnych filtrów o jednakowej szerokości (otrzymując liniową skalę 
częstotliwości) lub określić stały stosunek szerokości--pasma używanego 
filtru do jego częstotliwości środkowej (otrzymując logarytmiczną skalę 
częstotliwości). Skala logarytmiczna jest korzystniejsza ze względu na to, że 
lepiej koresponduje z naturalnymi własnościami słuchu człowieka, który 
jak wiadomo rozróżnia wysokości dźwięku (subiektywne odczucia często- 
tliwości), zgodnie z prawem Webera, a więc w sposób (w przybliżeniu) loga- 
rytmiczny. Ponadto, przy analizie obejmującej ponad 3 dekady stała pro- 
centowa szerokość filtru jest korzystniejsza ze względu na możliwość efek- 
tywnego prowadzenia pomiaru. W przeciwnym przypadku przyjęte stałe 
pasmo używanych filtrów albo będzie wymuszało użycie w następnej de- 
kadzie ogromnej (liczącej setki pozycji) liczby filtrów, albo dokładność 
analizy w niższej dekadzie będzie niezadowalająca (cała dekada będzie 
pokryta przez jeden lub dwa filtry). Dalszymi zaletami skali logarytmicz- 
nej (wyznaczanej przez filtry o stałej procentowej szerokości) są: łatwe wy- 
krywanie różnych zależności przy użyciu skali logarytmicznej oraz stałość 
dobroci Q (rys. 4-18). Za przyjęciem takiej skali przemawia także tradycja 
metrologii akustycznej, która zazwyczaj opierała się na pomiarach wykony- 
wanych filtrami o stałej procentowej szerokości. Natomiast filtry o stałej 
szerokości ułatwiają graficzną prezentację wyników przetwarzania sygnału 
(w szczególności wszystkie przytaczane rysunki wykonywane są z reguły 
w skali liniowej, czyli stałej szerokości pasm analizy), a także dobrze ko- 
respondują z nowoczesnymi, cyfrowymi metodami analizy, w których 
uzyskiwana skala częstotliwości jest z reguły liniowa. 
Rozpatrując stałą procentową szerokość pasma filtrów analizujących widmo 
można wyróżnić filtry o szerokości pasma wynoszącej jedną oktawę, filtry 
1/3-oktawowe oraz filtry o szerokości 1/10 oktawy. Filtry oktawowe mają 
pasmo o szerokości 70,7%, gdyż zgodnie z nazwą ich pasmo rozciąga się od 
pewnej ustalonej częstości dolnej Fy do częstości górnej F, = 2 Fy. Wylicza- 
jąc częstotliwość środkową jako F, = VEF, oraz pasmo jako AF = 


124 


4-18. Zaletą 
logarytmicznej 
prezentacji osi 


= F,—F, bez trudu wyznaczamy również stosunek AFJF, = IĄ2= 
= 70,7%. Zestaw filtrów oktawowych konstruowany jest zazwyczaj przy 
ustaleniu centralnej częstości wynoszącej 1000 Hz i obejmuje typowo 
10 filtrów pokrywających łącznie 3 dekady: od 22,5 Hz (dolna graniczna 
częstotliwość pierwszego filtru, którego częstotliwość środkowa wynosi 
31,5 Hz) do 22,5 kHz (górna graniczna częstotliwość filtru o częstotliwości 
środkowej 16 kHz). 


bz 


log a| 


częstotliwości sygnału 
jest między innymi 
łatwość określania 
związków pomiędzy 


wysokością 

i szerokością 
krzywych 
rezonansowych: 
b, =1/Q, oraz 
b = 1/02 


m 
tog f 


Do dokładniejszej analizy wykorzystywane są filtry o szerokości 1/3 oktawy 
(dziesięć filtrów na dekadę). Przy budowie takich filtrów bierze się pod 
uwagę zależność górnej częstości granicznej F, i częstości dolnej Fy zgodnie 
ze wzorem F, = 2'*F,, skąd łatwo wyliczyć, że AF/Fy = 23,1%, Filtry 
o mniejszych szerokościach pasma, na przykład wspomniane filtry o szero- 
kości 1/10 oktawy, pozwalają na dokładniejsze rozróżnianie drobnych 
szczegółów w widmie, jednak ich użycie związane jest z długim czasem 
ustalania się odpowiedzi na wyjściu filtru i dlatego ich użyteczność w anali- 
zie sygnału mowy jest ograniczona. Są one natomiast przydatne do analizy 
sygnałów, które pozostają nie zmienione przez długi czas i mogą być anali- 
zowane przez zestaw filtrów o dużej rozdzielczości. W celu pokonania tej 
niedogodności stosuje się niekiedy specjalne metody, na przykład specjalną 
kompresję czasową w analizatorze typu 3348 firmy Briiel and Kjaer, jednak 
problem jako taki pozostaje i jest jednym z trudniejszych w problematyce 
analizy spektralnej. Przyjmując za podstawę dyskusji przybliżoną relację 


bn=l (4.45) 


w której b oznacza procentową szerokość pasma, a n — liczbę okresów fali 
dźwiękowej, niezbędnych do ustalenia się przebiegów na wyjściu filtru, 
możemy łatwo stwierdzić, że dla filtru oktawowego (b = 0,707) przebiegi 
ustalają się praktycznie po pojedynczym okresie fali, dla filtru 1/3-oktawo- 
wego wymaganych jest 5 okresów, a dla filtru o b = 0,01 konieczne jest 
odczekanie aż 100 okresów — podczas gdy w sygnale-mowy nader rzadko 
występują odcinki o tak długim czasie trwania ustalonego przebiegu. Warto 
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przy tym ustosunkować się krótko do stosowanej w praktyce metody „wy- 
dłużania” krótkotrwałych odcinków sygnału mowy przez nagrywanie ich 
na taśmę i odtwarzanie w pętli wielokrotnie podczas analizy, Metoda taka, 
obok niedogodności związanej z wydłużeniem czasu trwania analizy, której 
wyniki nie mogą niestety być wykorzystywane na bieżąco, ma dodatkową 
niedogodność, Wynika ona z faktu, że w analizowanym przebiegu pojawią 
się składniki wywołane sztucznie wprowadzoną okresowością sygnału, które 
mogą zniekształcać rzeczywisty obraz analizowanych zjawisk. Wykorzystu- 
jąc „w pętli” sygnał o czasie trwania 7: wprowadzamy sztucznie do analizo- 
wanego widma prążki o częstościach 1/7, 2/7, ... co bywa zaniedbywane 
przy opracowywaniu wyników pomiarów i powoduje istotne zniekształcenie 
widma głosek krótkotrwałych. 


4-19. Szerokość pasma 
filtru może być 
określana jako 
szerokość szumowa 
(szerokość pasma 
filtru, który wycina, 

z białego szumu 
sygnał o tej samej 
energii, a ma 
prostokątną 
charakterystykę — 
patrz linia przerywana 
na rysunku), względnie 
częściej — jako 
szerokość rzeczywistej 
charakterystyki filtru 
na poziomie — 3 dB 
w stosunku do 
wierzchołka 
charakterystyki. 
Zwykle obie wartości 
są praktycznie 
identyczne, a druga 
jest łatwiejsza do 
określenia 


Rozważając filtry analogowe jako urządzenia do uzyskania informacji 
o widmie sygnału mowy należy przeanalizować wybrane charakterystyki 
tych filtrów i wprowadzić kryteria pozwalające określać ich jakość. Podsta- 
wowym parametrem filtru pasmowego nastrojonego na określoną często- 
tliwość F, jest jego pasmo przepustowe AF (rys. 4-19). Definiować można 
różne pasma, przy czym najczęściej są używane dwie definicje. Pierwsza 
określa tak zwane pasmo szu mowe jako szerokość pasma idealnego 
filtru (tzn. mającego prostokątną charakterystykę amplitudowo-częstotli- 
wościową) o identycznej częstotliwości środkowej, który wydobywa tę 
samą moc z sygnału będącego białym szumem, co rozważany filtr rzeczy- 
wisty. Tłumacząc to na język praktyczny można powiedzieć, że wspomniana 
definicja określa pasmo jako szerokość prostokąta mającego tę samą wy- 
sokość i tę samą powierzchnię, co charakterystyka amplitudowo-częstotli- 
wościowa rozważanego filtru (por. rys. 4-19). Z samego opisu przedstawio- 
nej definicji można wywnioskować, że jest ona mało praktyczna. Istotnie, 
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określenie dla rzeczywistego filtru jego pasma we wspomniany sposób jest 
pracochłonne i niewygodne. Z tego powodu używa się drugiej definicji, 
mającej nieco arbitralny charakter (wybór 3 dB ma charakter umowny — 
patrz dalej), ale bardzo wygodnej i łatwej w stosowaniu, a ponadto — co 
bardzo ważne — dającej dla większości praktycznie realizowanych filtrów 
prawie identyczne wartości szerokości pasma, jak wspomniana wyżej „,szu- 
mowa” definicja. Ustala się mianowicie szerokość pasma jako szerokość 
charakterystyki amplitudowo-częstotliwościowej filtru na poziomie —3 dB 
w stosunku do wysokości wierzchołka obwiedni. Definicja ta jest tak wy- 
godna i rozpowszechniona, że określenie „szerokości pasma” podane bez 
dodatkowych wyjaśnień zawsze odnosi się do tak właśnie zdefiniowanej 
szerokości, W definicji tej, pomimo jej prostoty, kryje się pewna niejedno- 
znaczność, wynikająca z faktu, że charakterystyka rzeczywistego filtru nigdy 
nie ma idealnie płaskiego wierzchołka, lecz pojawiają się na niej zafalowa- 
nia. Punkt, od którego odmierza się trzydecybelowy odstęp jest więc w pew- 
nym stopniu umowny. Zafalowania obwiedni dla dobrych filtrów powinny 
być minimalne, a przebieg rozważanej charakterystyki wyznaczany jest na 
drodze pomiarowej z ograniczoną dokładnością, zatem wpływ wspomnianej 
arbitralności na końcowy rezultat i jego precyzję może być uznany za mało 
znaczący. 

Oprócz częstotliwości środkowej i szerokości pasma (dowolnie rozumianego) 
do opisu własności filtru potrzebna jest dodatkowo ocena stromości zboczy 
jego charakterystyki. Używane są w tym celu dwa parametry. Pierwszy 
z nich, używany głównie do opisu charakterystyki filtrów liniowo rozłożo- 
nych w skali częstotliwości, nazywany bywa współczynnikiem 
kształtu (ang. shape factor) i definiowany jest jako stosunek szerokości 
pasma przepustowego na poziomie —60 dB do szerokości pasma na po- 
ziomie — 3 dB, przyjętego jako podstawa określenia szerokości filtru (rys. 
4-20). Drugi parametr nazywany jest rozdzielczością (selektyw- 


Rozdzielczość 
oktawowa 


sA SIODĘ 
0,5 1 2 


-20 |- 


-40|- 


-60 


fiz" teg! 
4-20. Określenie współczynnika kształtu filtru 4-21. Stosując logarytmiczną skałę częstotliwości 
(SF), będącego stosunkiem szerokości można zdefiniować jakość filtru podając jego 


charakterystyki na poziomie —60 dB w stosunku rozdzielczość oktawową, czyli stopień tłumienia 
do wierzchołka Beg do szerokości charakterystyki _ sygnałów o częstotliwości większej lub mniejszej od 
na póziomie —3 dB ——Bz fo filtru o jedną oktawę 
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nością) oktawową i określany jest jako wielkość tłumienia filtru dla często= 
tliwości odległych o jedną oktawę od częstotliwości środkowej filtru (rys. 
4-21). Oczywiście, drugi z wymienionych parametrów odnosi się głównie do 
filtrów tworzących zestawy o stałej (względnej) szerokości pasma, czyli 
filtrów nawiązujących do logarytmicznej skali częstotliwości. 

Jak wspomniano uprzednio, obok wciąż popularnych i chętnie stosowanych 
w praktyce filtrów analogowych, służących do wydzielania różnych często- 
tliwości z wejściowego sygnału, coraz popularniejsze stają się filtry cyfrowe 
i technika szybkiej transformaty Fouriera. Sygnał wejściowy w obydwu 
wymienionych technikach musi być poddany przekształceniu do: postaci 
cyfrowej, co generalnie utrudnia użycie tych technik, jednak liczne zalety 
metod cyfrowej analizy częstotliwościowej przeważają nad uciążliwością 
wstępnego przetwarzania sygnału i technika cyfrowa w coraz szerszym za- 
kresie wykorzystywana jest także w dziedzinie analizy częstotliwościowej 
sygnału mowy. 

Technika filtracji cyfrowej, bo od niej rozpoczniemy dyskusję, stanowi 
koncepcyjnie kontynuację filtracji analogowej (por. schemat na rys. 4-22), 


Sygnat Sygnat 
wejściowy wyjściowy 


Fittr 
cyfrowy |= 


Sekwencja Sekwencja 


wartości wartości 
wejściowych wyjściowych 
4-22. Zasada działania filtru cyfrowego 4-23. Struktura prostego, jednobiegunowego 
(u dołu) jest identyczna, jak w przypadku filtru cyfrowego. Oznaczenie © używane jest dla 


filtra analogowego (u góry), jednak filtr 

cyfrowy działa na dyskretnych (próbkowanych) 

wartościach sygnału wejściowego opóźnienia obiegu sygnału o jeden takt. 
Oznaczenia te będą używane w dalszych rysunkach 
bez objaśniania 


operacji mnożenia, dla dodawania, zaś z-] dla 


z tą jednak różnicą, że sygnał przed filtracją musi być doprowadzony do 
postaci cyfrowej, a po filtracji ma także postać cyfrową — tylko jego skład 
spektralny uległ odpowiedniej modyfikacji, zależnej od własnego użytego 
filtru. Przefiltrowany sygnał cyfrowy może być przesłany wprost do dal- 
szych, cyfrowych z reguły, systemów analizujących, przetwarzających lub 
przesyłających sygnał na duże odległości. Może być też oczywiście, za po- 
mocą przetwornika cyfrowo-analogowego, przekształcony na powrót do 
postaci analogowej i w tej formie wykorzystany. Współczesna technika 
cyfrowa stawia do dyspozycji projektanta i wykonawcy filtru cyfrowego 
wyjątkowo bogaty zestaw możliwości technicznych i teoretycznych. Z jednej 
strony bowiem znane metody syntezy filtrów cyfrowych (rekursywnych 
i nierekursywnych) pozwalają projektować filtry o całkowicie dowolnie 
wybieranych charakterystykach. W szczególności możliwe jest projektowa- 
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nie filtrów dolno-, górno- i środkowoprzepustowych; typu Czebyszewa, 
Butterwortha i dowolnego innego — przy czym w odróżnieniu od realizacji 
analogowej na parametry tych filtrów i ich charakterystyki nie nakłada się 
praktycznie żadnych ograniczeń. Z drugiej strony powstają wciąż nowe, 
doskonalsze i coraz tańsze podzespoły cyfrowe o rosnącym stopniu scalenia, 
co ułatwia wykonanie zaprojektowanych układów cyfrowych i ich miniatu- 
ryzację. 
Zasadę działania filtru cyfrowego wygodnie jest zilustrować na przykładzie 
prostego jednobiegunowego filtru dolnoprzepustowego (rys. 4-23). Widać, 
że zasada działania filtru polega na wyliczaniu sygnału wyjściowego w ko- 
lejnych momentach czasu y(n) jako sumy ważonej sygnału wejściowego 
w danej chwili czasowej x(x) oraz sygnału wyjściowego w poprzedniej) chwi- 
li yfn— 1) 

yn) = ax(n) +by(n— 1) (4.46) 


Współczynniki a i b określają własności filtru. W szczególności dla a = 0,1 
oraz b = 0,9 powstaje filtr o zastępczej stałej czasowej wynoszącej 10 okre- 
sów próbkowania wejściowego sygnału, co jest równoważne przedziałowi 
uśredniania wynoszącemu 20 okresów. Filtr taki bardzo efektywnie wy- 
gładza wejściowy sygnał. Na przykład, w skrajnie niekorzystnym przypadku 
filtrowania sygnału sinusoidalnego o częstotliwości będącej połową częstości 
próbkowania fluktuacje sygnału wyjściowego nie przekraczają 0,3 dB. 
Inne parametry filtru można natychmiast uzyskać zmieniając wartości 
parametrów a i b*, Warto te informacje uzupełnić jedynie tym, że oznacze- 
nie 271, użyte na rys. 4-23 do oznaczenia opóźnienia sygnału o jeden takt, 
wiąże się z tzw. transformacją 27 używaną do projektowania filtrów cyfro- 
wych. Transformacja ta pełni dla układów cyfrowych analogiczną rolę, jak 
transformacja Fouriera lub Laplace'a dla układów ciągłych. Jej wzór defini- 
cyjny wiąże dyskretną (cyfrową) funkcję czasu g(n) z funkcją argumentu 
zespolonego G(z), przy czym argument zespolony z związany jest z okresem 
próbkowania Aż wzorem z = exp(j2rfAt). Odwzorowanie G(z) = £ [g(n)] 
zapisywane jest zwykle w postaci 

G(2) = 35 g(n)z”" (4.47) 
i pozwala wygodnie opisywać i projektować najrozmaitsze systemy cyfrowe, 
w tym także filtry cyfrowe. Filtry te najczęściej mają postać dwubieguno- 
wych rekursywnych układów o ogólnej postaci podanej na rys. 4-24. Prak- 
tyczne realizacje rzeczywistych filtrów bywają uproszczone w stosunku do 
schematu podanego na rys. 4-24. Przykładowo, na rys. 4-25 podano schemat 
filtrów używanych w analizatorze 2131 firmy Briiel and Kjaer, przy czym 
przez odpowiedni dobór parametrów filtry te mogą być używane bądź jako 
dolnoprzepustowe filtry Buttervortha, bądź jako pasmowe filtry Czebyszewa 
o dowolnie dobieranej szerokości pasma: 1 oktawa, 1/3 oktawy lub 1/12 
oktawy. 


*» W istocie wybór ogranicza się do jednego parametru, gdyż zakłada się a+b = 1. 
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4-24. Ogólna 
struktura filtru 
dwubiegunowego. 
Zależnie od doboru 
parametrów filtr ten 
może mieć rozmaite 
charakterystyki 


4-25. Struktura filtrów 
używanych 

w analizatorze firmy 
Briiel and Kjaer. 

Filtry te pracują 
zarówno jako pasmowe, 
jak i jako 
dolnoprzepustowe 


Całkowicie odmienną, czysto cyfrową techniką uzyskiwania widma sygnału 
mowy jest algorytm FFT (szybkiej transformaty Fouriera) wspominany już 
wcześniej przy wprowadzaniu wzoru (4.42). Ze względu na istnienie bogatej 
i łatwo dostępnej literatury tego tematu nie wydaje się celowe dyskutowanie 
szczegółów w tej książce, warto jedynie odnotować kilka podstawowych 
własności FFT, istotnych z punktu widzenia analizy sygnału mowy. Naj- 
bardziej rozpowszechniona i chyba najwygodniejsza jest wersja algorytmu 
FFT, przy której liczba próbek czasowych sygnału N (równa oczywiście 
liczbie wyliczonych pasm częstotliwości w widmie) jest potęgą liczby 2. 
Zakładając zatem N = 2" możemy ponumerować próbki czasowe i wy- 
dzielone pasma częstotliwości liczbami binarnymi m-bitowymi, co znaj- 
duje zastosowanie przy realizacji algorytmu. Aby go zilustrować, przyjmijmy 


przykładowo N = 8 (m = 3) i zapiszmy równanie (4.42) w postaci macie- 
, Zrki 
rzowej. Zauważmy przy tym, że mnożniki zespolone ed" przyjmować 


będą wyłącznie wartości: e"*9 = 1, e" *"'* (co odpowiada obrotowi o kąt 
457 i oznaczane będzie skrótowo przez 4), e"*7%? (obrót o 90”, oznaczenie 
B), e”3F% (symbolicznie C), e” = — |, e-15%% (symbolicznie D), 
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e-13712 (symbolicznie E) oraz e'*7/4 (symbolicznie F). Oczywiście — 
nie należy o tym zapominać, gdyż istotnie wpływa to na złożoność obliczeń 
— wartości oznaczone jako 4, B, C, D, E i F są wielkościami zespolonymi, 
z wyjątkiem dwu przypadków szczególnych e-*9 oraz e", Używając 
wprowadzonych oznaczeń wypiszemy teraz w formie macierzowej transfor- 
mację (4.42) dla rozważanego przypadku N = 8. Na prawym marginesie 
wzoru, dla dalszej analizy, ponumerowano równanie kolejnymi liczbami bi- 
narnymi. 


G(0) 11 1 1 1 1 1 1 g(0) | (000) 
GQ) 1 4 B C-1 D E FI) gd) | (001) 
G(2) 1 B-1 E 1 B-1 EM] sQ2) | (010) 
GGB]|_1]1 C E A-1 F B DJ) gG) | (011) 
Gdy | 8]1-1 1-1 1-1 1 +1 g(4) | (100) 
G() 1 D B F-l A E CJ] gs) | 101) 
G(6) 1 E-1 B 1 E-1 BI) g(ó | (110) 
G() 1 F E D-1l C B A |Ls(Q0_| 11) 

(4.48) 


Przedstawiony zapis macierzowy układu równań nie wykazuje niezbędnych 
symetrii prowadzących do uproszczeń skracających obliczenia i dlatego 
trzeba we wzorze (4.48) poprzestawiać wiersze, aby uwypuklić regularność 
budowy macierzy wiążącej ze sobą wartości zespolone G(0), G(1), ..., G(7) 
oraz wartości próbek sygnału g(0), g(1), ..., g(7). Przydatna przy tym będzie 
wprowadzona binarna numeracja równań. Otóż odczytując numery bi- 
narne od tyłu (w odwrotnej kolejności bitów) otrzymujemy nowe numery, 
wskazujące na sposób przestawienia odpowiednich wierszy. Warto zauwa- 
żyć, że wiersze o numerach symetrycznych w układzie dwójkowym (0, 2, 5, 7) 
nie będą przestawiane. W wyniku przestawień powstaje macierz o wyraźnej 
regularności: 


1 1 1 1 1 i 1 1 
1 -1 1-1 1-1 1 -1 
1 B-l E 1 B-l E 
1 E-1l B 1 E-1 B 
1 A B C-l D E F "m 
1 D B F-l 4 E C 
1 CC E 4-1 F B D 
1 F E D-l CC B 4 


Wykorzystując tę regularność rozkłada się macierz daną wzorem (4.49) na 
trzy macierze o budowie umożliwiającej zminimalizowanie liczby mnożeń. 
Można wykazać, że macierz opisana wzorem (4.49) jest iloczynem trzech 
następujących (kolejnych!) macierzy: 
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1 1000000 
1-1000000 
0.01B0000 
0.01E0000 
0.0001400 (4.50) 
0.0001D00 
0.000001C 
00.000001 FE 
j10 1 00000( 
01 0 10000 
10-1 00000 
01 0-10000 
00 0 010B0 6.51) 
00 0 00108B 
00 0 010 E0 
00.0 0010E 
1000 1 0 0 0 
0100 0 1 0 0 
0010 0 0 1 0 
0001 0 0 0 1 
4. 
1000-1 0 0 0 oŚei 
0100 0-1 0 0 
0010 0 0-1 0 
0001 0 0 0-1 


Bardzo regularna, blokowa struktura macierzy danych wzorami (4.50), 
(4.51) i (4.52) pozwala przypuszczać, że dokonanie transformacji drogą 
wymnożenia wejściowego sygnału (w postaci dyskretnego wektora o składo- 
wych g(0), g(1), g(2), ..., g(7)) kolejno przez wymienione macierze powinno 
być w sumie prostsze niż dokonanie transformacji według wzoru (4.48). 
Jest to przypuszczenie słuszne i głęboko uzasadnione, jako że algorytm FFT, 
którego istotę oddają macierze (4.50), (4.51) i (4.52) wraz z przenumerowa- 
niem tworzącym z macierzy we wzorze (4.48) macierz (4.49) — dostarcza 
sposobu obliczenia transformacji Fouriera N/log+N razy szybciej niż postę- 
powanie według wzoru (4.48). Wartość N/log,N może być w ogólnym 
przypadku (dla dużych N) bardzo duża — rzędu setek czy nawet tysięcy. 
Oznacza to możliwość wykonania w kilkadziesiąt sekund obliczeń, które 
realizowane na tym samym sprzęcie cyfrowym trwałyby kilka godzin — 
i:jest to bez wątpienia jeden z bardziej znaczących wyników w zakresie 
algorytmów cyfrowego przetwarzania sygnałów. 

Schemat obliczeń, wykorzystujący używaną wcześniej symbolikę, przedsta- 
wiono na rys. 4-26 (dla rozważanego przykładu N = 8). Łatwo zauważalna 
własność algorytmu FFT, widoczna także ze schematu podanego na rys. 
4-26, polega na możliwości wykonania operacji „in situ”, to znaczy odpo- 
wiednie składniki transformaty wynikowej G(k) zajmują te same miejsca 
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w pamięci urządzenia liczącego, które uprzednio zajmowały elementy g(n), 
co prowadzi w rezultacie do bardzo ekonomicznej gospodarki pamięcią. 
Wprawdzie ze względu na fakt, że wartości G(k) są zespolone, potrzebne 
jest dla nich dwukrotnie więcej miejsca niż dla próbek czasowych sygnału 
g(n), które są liczbami rzeczywistymi. Ponadto, pewna nieekonomiczność 


4-26. Struktura algorytmu FFT. Oznaczenia jak we wzorze (4.48) i na rys. 4<23-+4-25, Algorytm FFT 
jest obecnie najwygodniejszą metodą uzyskiwania widma sygnału 


w rozmieszczeniu wektora wynikowego transformaty G(k) wynika z faktu, 
że transformata sygnału g(n) będącego ciągiem wartości rzeczywistych jest 
symetryczną, a dokładniej mówiąc — parzyście sprzężona (por. wzór (4.25)), 
w wyniku czego wartości transformaty dła częstotliwości ujemnych mogą 
być jednoznacznie wyliczone na podstawie wartości transformaty dla 
odpowiednich wartości dodatnich, a niestety zajmują miejsce w wektorze 
G(k). 

Sprawa rozmieszczenia w pamięci wartości będących wynikiem algorytmu 
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FFT wymaga nieco więcej uwagi, gdyż jest to niezbędne do właściwej inter- 
pretacji wyliczonych wartości G(k). Łatwo się przekonać (na przykład ze 
wzoru (4.48)), że wartość G(0) jest średnią wartości g(0), g(1), ..., g(N), 
czyli reprezentuje składową stałą. Kolejne dalsze wartości G(1),G(2)) odpo- 
wiadają równomiernie wzrastającym wyższym częstotliwościom aż do war- 
tości G(N/]2), która odpowiada częstotliwości granicznej sygnału f,, a do- 
kładniej — połowie częstotliwości próbkowania f;/2. Dalsze wartości G(N/ 
/2+1), G(N/2+2), ..., G(N) odpowiadają tak samo rozmieszczonym ko- 
lejnym dalszym częstotliwościom, jednak ze względu na fakt okresowości 
widma dyskretnego wartości te są identyczne z wartościami dla odpowied- 
nich częstotliwości ujemnych i ze względu na wspomnianą symetrię nie 
wnoszą nowych informacji. Ostatnia wartość G(N) odpowiada częstości 
próbkowania /,. Trzeba przy tym mieć na względzie fakt, że składowe syg- 
nału w pobliżu częstości /, są z reguły zniekształcone przez zjawisko na- 
kładania się widm i pomimo ich wyliczenia nie można traktować ich war- 
tości jako wiarogodnych. Aby temu niekorzystnemu zjawisku przynajmniej 
częściowo przeciwdziałać, sygnał mowy przed poddaniem procesowi prób- 
kowania jest ograniczony częstotliwościowo do przedziału (0, /,) za pomocą 
filtrów o wyjątkowo dużych nachyleniach charakterystyki dolnoprzepusto- 
wej. Przykładowo używając filtru o nachyleniu ponad 120 dB/oktawę (!) 
otrzymuje się próbki czasowe umożliwiające wykorzystanie ponad 80% wy- 
liczonych składników transformaty G(k) przy zakresie dynamiki ponad 
72 dB. Należy jednak zwrócić uwagę, że nawet przy tak skrajnym ogranicze- 
niu sygnału nie da się uznać za prawidłowe wszystkich obliczonych składo- 
wych widma. Tak więc stwierdzenie, że pierwszym N/2 elementom wektora 
G(k) odpowiadają częstotliwości od 0 do f, = /,/2 służy głównie do tego, 
aby zdefiniować pojęcie szerokości pasma w przypadku analizy FFT. Sze- 
rokość ta jest stała i wynosi Af = 2 /,/N. Szerokość ta może ulegać posze- 
rzeniu (a więc -— pogorszeniu) na skutek wpływu „okna czasowego” 
uwzględniającego ograniczony czas trwania próbki przetwarzanego sygnału 
mowy. Podana wartość szerokości pasma, wynosząca Af = 2f,/N, odpo- 
wiada przypadkowi okna prostokątnego, natomiast dla okna Hanninga 
wartość ta musi być zwiększona o 50%, dla okna zaś gaussowskiego wzrost 
szerokości pasma wynosi aż 90%. Problem stosowania i wpływu okien 
o różnej długości-na postać sygnału i jego widma będzie jednak bardziej 
szczegółowo rozważany w kolejnym podrozdziale. 

Niekorzystną własnością analizy widmowej prowadzonej z wykorzystaniem 
algorytmu FFT jest limitowanie przez liczbę próbek N rozdzielczości 
częstotliwościowej sygnału mowy, szczególnie w kontekście wcześniej wspo- 
mnianych dodatkowych ograniczeń: konieczności odrzucenia połowy wy- 
liczonych prążków widmowych jako nie wnoszących nowej informacji oraz 
małej wiarygodności części wyliczonych wartości widmowych w otoczeniu 
częstości granicznej f, Częściową rekompensatą za te niedogodności jest pew- 
na dodatkowa możliwość, chętnie wykorzystywana w większych systemach 
komputerowych, w których jest do dyspozycji odpowiednio duża pojemność 
pamięci. Jak wskazano wyżej, rozdzielczość częstotliwościowa zależy wyłącz- 
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nie od częstości próbkowania (lub inaczej — częstości granicznej, gdyż są to 
wartości związane) oraz od liczby próbek. Zawartość próbek jest przy tym 
mniej ważna — o ile tylko nie wprowadza nowych częstotliwości, fałszu- 
jących widmo rzeczywistego sygnału. Jeśli więc uzupełni się N rzeczywistych 
próbek rozważanego fragmentu ciągłego sygnału mowy serią „„próbek” 
mających zerową amplitudę — powiedzmy przykładowo jeśli doda się po N 
próbkach sygnału N zer, to wówczas z punktu widzenia rozważanych algo- 
rytmów analizy widmowej dwukrotnie zwiększy się liczba określanych 
obliczeniowo linii w badanym widmie i w tym samym stosunku polepszy się 
rozdzielczość. „Sztuczkę” opisaną tu można stosować wydłużając w razie 
potrzeby próbkę sygnału (przez dopisanie zer) więcej niż dwukrotnie i je- 
dynym ograniczeniem w tym zakresie jest pamięć używanego komputera. 
Dokładność amplitudowa analizy częstotliwościowej prowadzonej z wy- 
korzystaniem szybkiego przekształcenia Fouriera jest głównie limitowana 
dokładnością (wyrażaną liczbą bitów użytego przetwornika) wejściowych 
danych o przebiegu czasowym g(n). Przykładowo 12-bitowy przetwornik 
gwarantuje 72 dB zakres dynamiki — pod warunkiem, że dokładność nie 
zostanie utracona w trakcie zaokrągleń w obliczeniach prowadzonych 
według zadanego algorytmu. Aby uniknąć utraty dokładności, obliczenia 
algorytmu FFT prowadzi się z wykorzystaniem większej liczby bitów niż 
używane do przedstawienia wejściowego sygnału g(n) i używane do re- 
prezentacji wyniku analizy G(k). Typowo stosuje się przy obliczeniach 
16 bitów, co zabezpiecza przed skutkami błędów biorących swoje źródło 
w zaokrągleniach w działaniach matematycznych. Dokładność i szybkość 


działań matematycznych związanych z algorytmem FFT w istotny sposób 
„ Zmk 
zależą także od sposobu realizacji mnożeń przez zespolone czynnikie * F . 


Wykorzystując tożsamość e”* = cosx+jsinx możemy stwierdzić, że do 
obliczeń wymagane są wartości funkcji trygonometrycznych sinx oraz 
cos x, które typowo w systemach komputerowych obliczane są ze wzorów 
odpowiadających rozwinięciom na szeregi — a więc w sposób czasochłonny. 
Ponieważ do realizacji przekształcenia Fouriera z wykorzystaniem algo- 
rytmu FFT potrzebne są jedynie niektóre, regularnie rozmieszczone war- 
tości wskazanych funkcji (a właściwie jednej z nich, gdyż mając wartość 
sin x można bez trudu wyznaczyć cos x i na odwrót), przeto jest rzeczą 
korzystną i celową posługiwanie się zapamiętanymi, stabelaryzowanymi 
wartościami funkcji trygonometrycznych, a nie programami ich sukcesywne- 
go wyliczania. 

Algorytm FFT dokonuje przekształcenia Fouriera w sposób bliski defini- 
cyjnemu wzorowi, nie wymaga przeto żadnych uzupełnień. Analiza często- 
tliwościowa wykonywana z wykorzystaniem filtrów — analogowych bądź 
cyfrowych — dostarcza w istocie przebiegów czasowych o częstotliwościach 
leżących w przedziale wynikającym z parametrów filtru. Aby na tej pod- 
stawie określić widmo mocy rozważanego sygnału mowy, należy sygnały 
wejściowe z filtrów poddać dwu zabiegom: podnoszenia do kwadratu oraz 
uśredniania. Oba wspomniane zabiegi są łatwiejsze do przeprowadzenia 
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w przypadku sygnałów mających postać cyfrową. W przypadku sygnałów 
analogowych realizacja odpowiednich procesów dokonywana jest w sposób 
przybliżony, wnoszący dodatkowy błąd do metody. Operacja podnoszenia 
do kwadratu, w znacznej części analogowych systemów widmowej analizy 
sygnałów, jest wykonywana w sposób przybliżony z wykorzystaniem ukła- 
dów nieliniowych zrealizowanych z wykorzystaniem wzmacniacza opera- 
cyjnego i zespołu odpowiednio spolaryzowanych diod. Diody te formują 
charakterystykę statyczną układu, aproksymującą przebieg paraboliczny 
(czyli potrzebną funkcję x*) za pomocą linii łamanej złożonej z odpowiednio 
rozmieszczonych odcinków charakterystyk prostoliniowych (rys. 4-27). 


x 4 


4-27. Aproksymacja 
funkcji kwadratowej 

za pomocą linii łamanej, 
wykorzystywana przy 
wyznaczaniu widma 
mocy sygnału 


Taka realizacja w niektórych systemach uznawana jest za zbyt prymitywną 
i zastępowana jest analogowymi członami mnożącymi, działającymi na 
hallotronach lub układach półprzewodnikowych o charakterystyce loga- 
rytmicznej. W innych, użytkowych układach nawet realizacja oparta na 
linii łamanej uznana jest za zbyt kosztowną i zastąpiona jest przez prosto- 
wanie dwupołówkowe przebiegów na wyjściu poszczególnych filtrów. R.oz- 
bieżności między wartościami poprawnymi a uzyskanymi z uproszczonej 
analizy mogą jednak wówczas być dość znaczne. 


4-28. Prosty czwórnik gi 

RC używany do 

uśredniania sygnału c 
metodą ,„ważenia 

wykładniczego” 


Kolejna czynność to uśrednianie wyniku w czasie. Pojawia się przy tym 
problem sposobu uśredniania, gdyż używane są, między innymi, dwa po- 
dejścia: wyliczanie wartości średniej w ustalonym czasie (,„prostokątne” 
ważenie sygnału) oraz uśrednianie w prostym filtrze dolnoprzepustowym RC 
(rys. 4-28), nazywane czasami „ważeniem wykładniczym”. Oba typy uśred- 
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niania wprowadzają pewne błędy do widma analizowanego sygnału i ich 
stosowanie jest kwestią wyboru tego wariantu, którego niedoskonałości 
w kontekście konkretnego zastosowania wydają się mniej istotne. Wiele 
typów aparatury analitycznej dostarcza użytkownikowi swobodnych możli- 
wości wyboru między wymienionymi ewentualnościami. Generalnie, dyspo- 
nując próbką sygnału o czasie trwania 7 korzystniej jest stosować uśrednia- 
nie równomierne*» (z „prostokątnym” oknem), natomiast uśrednianie 
wykładnicze jest bardziej wygodne dla sygnałów wolnozmiennych, dla któ- 
rych widmo powinno „nadążać” za zmianami sygnału i uśrednianie po- 
winno mieć charakter ,„kroczący”. Uśrednianie za pomocą dolnoprzepusto- 
wego filtru RC ma również zastosowanie w tych przypadkach, kiedy wy- 
magany jest równomierny (w skali częstotliwości) rozkład błędów statys- 
tycznych (zależnych od iloczynu szerokości pasma B i czasu uśredniania 7). 
Osobnym zagadnieniem, związanym z rozważanym tu problemem uśrednia- 
nia sygnału na wyjściach filtrów, jest wybór czasu uśredniania. Jeśli anali- 
zowany sygnał ma określoną dominantę o częstotliwości f, wówczas dla 
uzyskania poprawnych rezultatów wybiera się czas uśredniania zgodnie ze 
wzorem: 

TA > BJJ (4.53) 


W przypadku sygnałów bez dominującej składowej lub sygnałów szumo- 
wych można oprzeć się na innym kryterium. Przy ustalonym pasmie często- 
tliwości dokonującego analizy filtru B oraz przy założonym poziomie od- 
chylenia standardowego wyniku analizy E (w dB) czas uśredniania można 
wyznaczyć z zależności 


18,84 
"BE 
Wartość czasu uśredniania dobiera się także niekiedy empirycznie lub ustala 
na poziomie ustalonym zwyczajowo dla danego typu sygnału. Przykładowo 
dla sygnału mowy przyjęto tradycyjnie 7, = 10 ms. Taka wartość czasu 
uśredniania wynika z dynamiki sygnału mowy i jego widma. 


TA > (4.54) 


Dla uśredniania liniowego interpretacja czasu 7, jest oczywista (rys. 4-29), 
natomiast otwarta pozostaje interpretacja czasu uśredniania dla ważenia 
wykładniczego, gdyż przebieg zanikający wykładniczo trwa — teoretycznie 
— nieskończenie długo, zanim zaniknie do zera. Przyjmuje się jednak, dla 
uśredniania za pomocą dolnoprzepustowego filtru RC czas uśredniania 
określony jako (rys. 4-29) 

TA = ŻRC . (4.55) 


W dziedzinie częstotliwości kształty charakterystyk częstotliwościowych 
ważenia prostokątnego i wykładniczego różnią się (rys. 4-30), co należy 
mieć na uwadze dokonując oceny wyników analizy. 


1% . 
*) Uśrednianie równomierne przebiega zgodnie ze wzorem x;, = p 5 x(odri dla- 
460 
tego używana jest również nazwa uśrednianie liniowe lub całkowanie liniowe. W zastoso- 
waniach całka zastępowana bywa sumą — szczególnie dia sygnałów cyfrowych. 
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4-29. Porównanie 
czasowej formy okna 
prostokątnego 

i ważenia 
wykładniczego. Czas 
uśredniania 74 jest 
równy długości okna 
prostokątnego lub 
podwójnej wartości 
stałej czasowej RC 


4-30. Porównanie 
charakterystyki 
widmowej 
(amplitudowo- 
-częstotliwościowej) 
okna prostokątnego 
(linia ciągła) 

i uśredniania 
wykładniczego (linia 
przerywana). 
Częstotliwość 

w jednostkach 
względnych /Tu 


4-31. Przykład 
uśrednionego widma 
sygnału mowy; 
wypowiedź: brat 
Zygmunta 


2ITĄ=1/RC 


Uśrednianie 
wyktadnicze 


Okna 


UT 
prostokątne 4 
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Analiza częstotliwościowa ma zastosowanie w odniesieniu do sygnału mowy 
jedynie w kontekście tzw. długoterminowego widma sygnału mowy, uwzględ- 
niającego obraz widmowy sygnału w czasie wielokrotnie większym od 
okresów quasi-stacjonarności widma, lub w odniesieniu do tych fragmentów 
sygnału, dła których można przyjąć, że w czasie ich generacji widmo sygnału 
nie podlega istotnym zmianom. Przykładowo na rys. 4-31 pokazano długo- 
terminowe widmo sygnału mowy, obejmujące wypowiedź brat Zygmunta 
(głos męski), zaś na rys. 4-32 pokazano podobne widmo dla wypowiedzi 
Stos drewna. Widma te uzyskano za pomocą uśredniania kilkuset widm 
chwilowych z wykorzystaniem maszyny cyfrowej o dużej pamięci, Możliwe 
jest jednak uzyskiwanie podobnych widm metodami aparaturowymi, 
w szczególności analogowymi, Na rysunkach 4-33 i 4-34 pokazano przykła- 
dowo widma chwilowe sygnału mowy w wybranych odcinkach czasu, od- 
powiadających artykulacji określonych głosek. 


Poziom [dB] 
10 20 30 40 50 


4-32. Inny przykład 
uśrednionego widma o 


sygnału mowy; 
wypowiedź: stos 


drewna 


4-33. Krótkookresowe 
widmo sygnału mowy 
(czas uśredniania; 

9 ms) przedstawiające 


stan ustalony 
samogłoski i. 


Widoczne „skupienie” 


o 20 40 60 80 100 120 
Częstotliwość [kHz] 


Przebieg uśredniony 


Poziom [dB] 
20 30 40 50 


0 


widma w zakresie 


małych częstotliwości o T — 1 r 


oraz wyraźne 
formanty 


4-34. Krótkookresowe 
widmo sygnału mowy — 
spółgłoska szumowa s. 
Widmo jest odmienne 
od przedstawionego na 
rys. 4-33: szerokie, 


zlokalizowane 


w zakresie dużych 


częstotliwości 
i pozbawione 


0 20 40 60 80 100 ' 128 
Częstotliwość [kHz] 


Poziom [dB] 
10 20 30 40 50 
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wyraźnych struktur Częstotliwość [kHz] 
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4-35. Przebieg sygnału 
mowy, który może 
podlegać filtrowaniu 
(wypowiedź serce 


głos męski) 


Widma podobne do przytoczonych są bardzo przydatne w wielu badaniach, 
przykładowo widmo długookresowe może być wykorzystane do określania 
globalnych charakterystyk sygnału, potrzebnych przy projektowaniu apara- 
tury wzmacniającej (nagłaśnianie), linii transmisji, a także układów testu- 
jących wymienione urządzenia „sygnałem mowopodobnym”. Do rozpozna- 
wania mowy lub w celu szczegółowych badań nad jej artykulacją, percepcją 
i transmisją widma takie są mało przydatne. Dotyczy to także widm chwi- 
lowych wybranych, quasi-ustalonych fragmentów sygnału mowy. Ich przy- 
datność do badań nad mechanizmami artykulacji i percepcji jest bezsporna, 
mogą one także być przydatne przy analizie i rozpoznawaniu izolowanych 
fonemów, sylab, diad, triad, logatomów. Jednak zarówno przy transmisji 
mowy, jak i przy jej rozpoznawaniu bardzo istotne znaczenie mają czasowe 
zmiany widma sygnału, Wynika to zresztą ze wszystkiego, co zostało po- 
wiedziane na temat analizy sygnału mowy w systemie słuchowym człowieka, 
a także z opisanego wyżej modelu procesu artykulacji mowy. Ruchy na- 
rządów artykulacyjnych dynamicznie kształtują widmo mowy, a zmiany 
objętości poszczególnych wnęk rezonansowych tworzących się w trakcie 
głosowym formują płynne przejścia od jednej postaci widma do drugiej, 
przy czym zmiany te bywają bardziej istotne z punktu widzenia procesu 
rozpoznawania mowy niż stany ustalone głosek! Istotnie, wykazano 
w licznych badaniach, iż wiele głosek można poprawnie rozpoznawać wy- 
łącznie -przy słyszeniu poprzedzających je i następujących po nich głosek, 
natomiast stan ustalony sygnału odpowiadający stricte rozważanej głosce 
nie niesie wystarczających informacji — przedstawiony słuchaczom w izo- 
lacji nie jest poprawnie interpretowany. Sygnał spreparowany w sposób 
polegający na usunięciu głoski przy pozostawieniu „stanów przejściowych” 
przed i po rozważanej głosce — rozpoznawany jest bez trudu w całości — 
przy czym słuchacze nie dostrzegają braku stanu ustalonego badanego 
fonemu. 
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4.3. 


Przytoczone argumenty sprawiają, że kończąc rozważania na temat analizy 
częstotliwościowej trzeba od razu rekomendować jako najwłaściwszą formę 
prezentacji sygnału mowy do analizy, rozpoznawania i badań nad transmisją 
analizę czasowo-częstotliwościową, będącą przedmiotem rozważań w ko- 
lejnym podrozdziale. 


Czasowo-częstotliwościowa zmienność sygnału mowy 


Poprzedzające dwa podrozdziały stanowiły opis typowych technik wykorzys- 
tywanych w analizie sygnałów: analizę w dziedzinie czasu i analizę często- 
tliwościową. Stwierdzono w nich, że przebieg czasowy sygnału mowy przy- 
kładowo pokazany na rys. 4-35 zawiera w istocie wszystkie niezbędne do 
analizy i rozpoznania elementy, ale w niedogodnej formie. Można więc 
dobrać zestaw filtrów o pożądanych własnościach i badać przebiegi sygnału 
w wybranych pasmach częstotliwości. Przykładowo na rys. 4-36 pokazano 
przebieg tego samego sygnału, co prezentowany na rys. 4-35 w wybranych 
pasmach. Każdy z tych przebiegów (a można ich sporządzić znacznie wię- 
cej — w typowej analizie wykorzystuje się od kilkudziesięciu do kilkuset 
pasm częstotliwości) dostarcza informacji o dynamice sygnału w wybra- 
nym fragmencie widma. Przykładowo dla wypowiedzi z rys. 4-35 widoczne 
są w pasmach odpowiadających małym częstotliwościom segmenty samo- 
głoskowe e, a w pasmach dużej częstotliwości segmenty odpowiadające 
narastaniu i zanikaniu szumowej głoski s (występują one dwukrotnie, gdyż 
dźwięk zapisywany ortograficznie jako c jest w istocie złożeniem plozyjnej 
głoski t i szumowej głoski s). 

W sygnale rozłożonym na pasma częstotliwościowe i analizowanym w formie 
przebiegów czasowych w tych pasmach zawarta jest cała niezbędna infor- 
macja, jednak objętość koniecznego do analizy materiału wzrasta do roz- 
miarów trudnych do zaakceptowania. Można oczywiście wybrać określony 
odcinek czasu i przedstawić widmo sygnału w tym momencie w postaci 
przedstawionej na rys. 4-33 i 4-34, jednak takie wyrywkowe analizowanie 
sygnału jest również mało użyteczne. W celu uchwycenia równocześnie 
wymiaru częstotliwościowego sygnału i jego czasowej zmienności trzeba 
zastosować reprezentację trójwymiarową. Ustawienie widm chwilowych 
podobnych do pokazanych na rys. 4-33 i 4-34 kolejno, jedne za drugimi, 
niewiele daje, gdyż widma się wzajemnie zasłaniają, Konieczne jest spojrze- 
nie z góry — komputer daje możliwość takiej prezentacji sygnału. Na rysun- 
ku 4-37 a--© pokazano kolejne obrazy zmienności częstotliwościowo-czaso- 
wej sygnału pod coraz większym kątem. Na rysunku 4-38 a--e pokazano 
ten trójwymiarowy obraz z różnych kierunków — zależnie od potrzeb i wy- 
magań obserwatora. Przy niektórych ustawieniach głównie obserwuje się 
czasową zmienność sygnału w poszczególnych pasmach, w wyniku innego 
ustawienia otrzymuje się obraz eksponujący głównie strukturę widma w po- 
szczególnych momentach czasu i służyć on może śledzeniu drobnych detali 
i zmian obrazu sygnału w sąsiednich widmach. Wszystkie te obrazy przedsta- 
wiają jedną i tę samą wypowiedź serce — ale jakże inaczej zaprezentowaną, 
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4-36. Przebieg będący 
wynikiem filtracji 
sygnału z rys, 4-35 za 
pomocą filtra 

o szerokości pasma 
125 Hz i częstotliwości 
środkowej: 

a — 750 Hz (widoczne 
głównie przebiegi związane 
z samogłoskami), b — 

875 Hz, c — 1250 Hz, d — 
2500 Hz, e — 3750 Hz, f— 
5000 Hz (znikły 
praktycznie składowe 
pochodzące od 

samogłosek, widoczne są 
wyłącznie przebiegi 
spółgłoskowe jłoski 
szumowe s), g — 6250 Hz, 
h-— 7500 Hz i — 10000 Hz 


Przebieg na filtrze numer 6,0 


Amplituda 
k 5,00 
1 


7500 


f 


-15,00 


T 1 —————1 —-— 
0,16 0.32 0,48 0,64 0,80 0,36 
Czas trwania wypowiedzi lsi 


Amplituda 
25,00 ; 5,00 ; 15,00 


L 


T jj I 47% T "T Paa r 
016 0,32 0,48 0,64 0,80 0,96 
Czas trwania wypowiedzi [s] 


Przebieg na filtrze numer 10,0 


—15,00 
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PT T T ] 
018 j 0.32 0,48 0,64 0,80 0,96 
Czas trwania wypowiedzi [s] 


r T T U T p 1 ! 
000 0,16 032 048 0,64 0,80 0,96 
Czas trwania wypowiedzi [s] 


g 
E 
a 
E 
<< 
KIEGZNELENEES:; zu 1 1 1 RT 1 
0,00 016 0,32 0,48 0,54 0,80 0.96 
Czas trwania wypowiedzi (s] 
Przebieg na filtrze numer 40,0 
8 
E 
o 
> 
CIJ 
5 
2 
Ę w 
EQ 
<Q 
roi 
l 
o 
c: 
a 
T T 1 


T r UJ T T T j: T 
900 0,16 0,32 0,48 0,64 0,80 0,95 
Czas trwania wypowiedzi (sl 
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a 


Przebieg na filtrze numer 50,0 


15,00 


Amplituda 
| 5:00 


-5,00 


-15,00 
+ 
oi 
e. 


| owoc T T 1 
016 0.32 0,48 0,64 0,80 0,96 
Czas trwania wypowiedzi [s] 


Amplituda 
5,60 


-5,00 


8 
RAW ZPPA FW Paz 20 r T T 1 
0,00 0,16 0,32 0,48 0,64 0,80 0,36 
Czas trwania wypowiedzi Is] 
i 
8 Przebieg na fiitrze numer 80,0 
ra 
|>| 
a 
ow 
G 
z 
5 + 
e2 
< uj. 
, 
=| 
=: 
w 
T 
T T T T 


T T T T Ej r 1 
0,00 0,16 0,32 0,48 0,64 0,80 0,96 
Czas trwania wypowiedzi [s] 


W 
KOSA 
l NY 
M 


4-37. Próba 

spojrzenia na widma 
chwilowe (wypowiedź 
serce, głos męski), 
ustawione jedno za 
drugim, według 
kolejnych chwil 
czasowych — z góry: 

a — kąt widzenia niewielki — 
15" w stosimku do podstawy 
(wiele szczegółów widm 
ulega zatarciu), b — kąt 
widzenia 30”, c — kąt 
widzenia 45* — optymalne 
warunki do obserwacji 
szczegółów widma 


Zalety czasowo-częstótliwościowej prezentacji sygnału docenić można 
porównując obrazy tak przedstawionego sygnału mowy dla różnych wy- 
powiedzi, Na rysunkach 4-39 a--e przedstawiono przykładowo widmo kilku 
prostych wyrazów, na rys. 4-40 zaś przedstawiono czasowo-częstotliwościo- 
wą zmienność sygnału mowy w wypowiedziach stos drewna (a) i Brat Zyg- 
munta (b). Są to te same wypowiedzi, dla których uśrednione widma przed- 
stawiono na rys. 4-31 i 4-32. Łatwo porównać, o ile bardziej szczegółowy 
i pełen treści jest obraz czasowo-częstotliwościowej zmienności sygnału niż 
obraz całościowy, uśredniony. 

Nie zawsze badacz zajmujący się analizą sygnału mowy ma do dyspozycji 
komputer'o dużych możliwościach graficznych i.dlatego nie zawsze możliwe 
jest prezentowanie „trójwymiarowych dynamicznych widm w: postaci 
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4-38. „„Trójwymiarowe” 
widmo może być 
oglądane pod 
dowolnym kątem 
(wypowiedź serce): 

A — 07, b — 1007, c — 150”, 
d-— 2007, e — 250% 


146 


4-39. Widma 
trójwymiarowe 
różnych wypowiedzi: 
A — oferta; b — włosło, 
c— byłem, A — wino, 

e —s7a 
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10 


rysunków podobnych do prezentowanych. Z merytorycznego punktu widze- 
nia równoważne są inne przedstawienia, być może skromniejsze wizualnie, 
ale dostarczające w praktyce tych samych wiadomości na temat analizo- 
wanego sygnału, jego widma i zmienności tego widma w czasie. Zazwyczaj 
wykorzystuje się przy tym prezentację sygnału na dwuwymiarowej płasz- 
czyźnie, której jedna oś oznacza czas, a druga częstotliwość. Trzeci wymiar—- 
amplitudę sygnału — prezentuje się stosując odpowiednią skalę stopnia 
zaciemnienia papieru (im silniej zaciemniony dany punkt w układzie czas- 
-częstotliwość, tym wyższą amplitudę ma w danym momencie czasu składowa 
sygnału o wyróżnionej częstotliwości). Przykładowy wykres tego typu po- 
kazano na rys. 4-41. Jak widać, przyjęty sposób prezentacji tworzy rodzaj 
mapy „górzystego terenu” przedstawionego w pseudoperspektywie na rys. 
4-37 --4-40. Analogia z mapą zwiększa się w niektórych nowocześniejszych 
aparatach prezentujących czasową zmienność sygnału mowy rozłożonego 
na poszczególne pasma częstotliwości za pomocą kodu barw. Ten sposób 
prezentacji, szczególnie przydatny w komputerowych systemach wyposażo- 
nych w barwne monitory ekranowe zyskuje na znaczeniu, gdyż umożliwia 
szybką i precyzyjną lokalizację interesujących struktur w widmowo-czaso- 
wym przebiegu sygnału i jest dobrze dostosowany do możliwości percep- 
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4-40. Widmo 
wypowiedzi 


a— stos drewna, b — brat 


Zygmunta 


Poziom [dB] 


$ 

ARÓW 

th M 
| 


Poziom ldB] 


cyjnych człowieka, W nowszych systemach tego rodzaju wykorzystuje się 
dodatkowo możliwości podkreślania wybranych struktur przez technikę 
rozjaśniania, migotania lub inwersyjnej prezentacji na ekranie, co w po- 
łączeniu z możliwością swobodnego wprowadzania na ekran napisów, 
wartości liczbowych, linii podkreślających obserwowane struktury (na 
przykład przebieg formantów) daje w sumie dogodne narzędzie, pozwalające 
w trybie interakcyjnym badać i analizować dowolne szczegóły sygnału. 

Urządzenia omawianego typu są jednak bardzo kosztowne i dlatego warto 
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4-41. Przykładowy sonogram uzyskiwany w aparatach dokonujących cząsowo-częstotliwościowej 
analizy sygnału mowy. Amplituda sygnału zaznaczona jest stopniem zaciemnienia papieru. Spektrogram 
wykonano w Zakładzie Fonetyki Akustycznej Instytutu Podstawowych Problemów Techniki PAN 

w Poznaniu i reprodukowany jest za łaskawym zezwoleniem prof. Wiktora Jassema (wypowiedzi Jaś 
oraz piać) 


wspomnieć o innej możliwości, łatwej do zrealizowania w warunkach kra- 
jowych, gdyż w praktyce nie wymagającej żadnych specjalnych urządzeń. 
Mowa o możliwości sporządzania „„map” rozkładu czasowo-częstotliwoś- 
ciowego amplitud analizowanego sygnału w postaci alfanumerycznych wy- 
druków z komputera. 

Pewien problem w omawianiu i prezentacji wszystkich form dwuwymiaro- 
wego, częstotliwościowo-czasowego odwzorowania sygnału mowy wynika 
w związku z terminologią. Co to:jest przebieg czasowy, to dobrze wiadomo, 
łatwo też zdefiniować widmo. Ale ta specyficzna hybryda? Przez pewien 
czas używano określenia sonogram wiążąc to z faktem, że pierwotne formy 
prezentacji tego typu uzyskiwano z aparatu o nazwie Sona-Graph (patrz 
rys. 4-41). Potem zaczęto używać nazwy spektrogram dynamiczny — ade- 
kwatnej, ale niewygodnej z uwagi na długość. Pojawiają się propozycje 
nazwania rysunków tego rodzaju wideogramami. Nie czas tu i miejsce na 
relacjonowanie i próby rozstrzygania tych sporów, warto jednak, aby Czytel- 
nik był świadom tej rozmaitości i nie gubił się przy czytaniu doniesień 
różnych autorów, nazywających w różny sposób — w istocie jedno i to 
samo. 

Znacznie ważniejszy od nazw jest problem sposobu wyliczania wartości 
czasowo-częstotliwościowego spektrum sygnału. Niestety, w tym momencie 
nie uda się dalej ignorować efektu ,„okna czasowego” i tym problemem na- 
leży się teraz zająć. 

Obliczając dynamiczne widmo sygnału mowy nie możemy już posługiwać 


się wzorami (4-23)-- (4.43), właściwsze jest natomiast posługiwanie się 
wzorem 
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0 
G(k.0= DV) g(D)k(n— lje”"2r (4.56) 
I=-0 
gdzie G(k, n) należy interpretować jako wartość (zespoloną) transformaty 
dyskretnego sygnału g(/) w chwili » dla dyskretnej częstotliwości k. Nie 
rozważamy tu przypadków sygnału ciągłego lub ciągłej wersji transformaty 
G, gdyż praktycznie krótkookresowa transformata Fouriera (gdyż tak bywa 
nazywany wzór (4.56)) jest obliczana jedynie z wykorzystaniem sprzętu 
cyfrowego. Jak widać we wzorze (4.56), centralną pozycję zajmuje funkcja 
okna h. Rozważa się różne funkcje okna. Wspólną ich cechą jest zawsze to, 
że mają niezerowe wartości jedynie wewnątrz pewnego przedziału swoich 
wartości. Załóżmy, że w prowadzonych rozważaniach szerokość przedziału, 
wewnątrz którego spełniony jest warunek h(n) > 0, wynosi N, Funkcja okna 
powinna być symetryczna wokół zera, to znaczy powinna być określona 
zarówno dla n dodatnich, jak i ujemnych. Ponadto powinna spełniać waru- 
nek h(—n) = k(n). Na ogół dla wygody zapisu dokonuje się korekty układu 
współrzędnych zgodnie ze wzorem 


; N—1 
2 


(4.57) 


dzięki czemu niezerowe wartości funkcji h(m') są uzyskiwane wyłącznie dla 
n' > 0, zaś maksymalna wartość, przypadająca w oryginalnej funkcji h(n) 
w zerze (h(0) 2 h(n) dla wszystkich n) w funkcji o skorygowanym argumen- 
cie przypada dla wartości n* = aż Przy tak skorygowanym zapisie moż- 
na z łatwością opisać kilka bardziej popularnych funkcji okna. Najprostsze 
pojęciowo, ale wprowadzające największe zakłócenia do wynikowego sygna- 
łu jest okno prostokątne. Definicja tego okna jest prosta: 


hny)=1 dla 0<n <N-l (4.58) 


Okno także ma pożądane własności z punktu widzenia selektywności ana- 
lizy (nie pogarsza rozdzielczości częstotliwościowej w stosunku do szero- 
kości pasma wprowadzanego przez stosowaną metodę analizy częstotli- 
wościowej — na przykład w stosunku do pasma pojedynczego filtru), ale 
jego widmo, ze względu na dużą liczbę tzw. listków bocznych (rys. 4-42), jest 
niepożądane. Ponieważ wynikowe widmo sygnału otrzyma się w wyniku 
splotu widma sygnału i widma okna, listki boczne mogą deformować 
widmo w istotny i trudny do skorygowania sposób. Dlatego zaproponowano 
wiele funkcji okna o łagodniej opadających ,,zboczach”, co w rezultacie 
prowadzi do zmniejszenia wpływu listków bocznych (których amplituda 
relatywnie maleje) i odtwarzania sygnału bez zniekształceń. Niestety odbywa 
się to kosztem poszerzenia (a więc na ogół — pogorszenia) pasma anali- 
zy. 

Najprostszym rozwiązaniem okna o łagodnie opadających zboczach jest 
okno trójkątne, nazywane w literaturze oknem Bartletta. Wzór opisujący 
tę funkcję ma postać 
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hf) = (4.59) 
2 £N£N-l 
N-1 23 082) 


Okno Bartletta charakteryzuje się jednak nadal niewielkim polepszeniem 
amplitudy sygnału do amplitudy listków bocznych (rys, 4-43), Lepsze pod 
tym względem jest okno o kształcie funkcji cos? nazywane oknem Hanninga. 
Jest to bardzo często wybierana w praktyce postać funkcji okna, charaktery- 
zująca się dobrymi własnościami (poziom pierwszego listka bocznego 
stłumiony jest w stosunku do poziomu sygnału o —32 dB, a obwiednia 
kolejnych dalszych listków bocznych szybko opada z nachyleniem 60 dB/ 
[dekadę — rys. 4-44), W dodatku wbrew pozorom realizacja takiej funkcji 
okna jest mało kłopotliwa w systemie cyfrowej analizy widmowej sygnału, 
ponieważ do algorytmu FFT, opisywanego w poprzednim podrozdziale, 
dysponujemy zwykle w pamięci maszyny gotową tabelą wartości funkcji 
kosinus. Niestety, dobre własności okna Hanninga okupione są pewnym 
pogorszeniem rozdzielczości częstotliwościowej prowadzonej analizy, gdyż 
stosując wskazane okno musimy liczyć się z poszerzeniem wszystkich pasm 
filtrów analizujących widmo, w wyniku czego rozdzielczość analizy krótko- 
okresowej z wykorzystaniem okna Hanninga wynosi Af" == 1,5AF, gdzie 
AF jest rozdzielczością używanej metody analizy (analogowej lub cyfrowej) 
bez uwzględnienia wpływu okna. Wzór opisujący okno Hanninga wygodnie 
jest zapisywać w postaci umożliwiającej uniknięcie podnoszenia do kwadra- 
tu: 


h(n') = ż |--0 | 0<n <N-l (4.60) 
Bardzo często okno Hanninga bywa poddawane modyfikacji, polegającej 
na podniesieniu okna typu cos? na prostokątny piedestał o odpowiednio 
dobranej wysokości. Taka kombinacja do pewnego stopnia łączy zalety 
okna prostokątnego i okna Hanninga: pogorszenie pasma częstotliwości 
jest mniejsze i wynosi tylko 40% (A/" = 1,4AF), dzięki zaś specyficznej 
interferencji listków bocznych widm pochodzących od prostokąta i cos? 
następuje dalsze stłumienie poziomu pierwszego listka bocznego do po- 
ziomu —42 dB. Niestety, malenie dalszych listków bocznych jest przy tym 
mniejsze niż dla okna Hanninga i wynosi jedynie 20 dB/dekadę (rys. 4-45). 
Okno o omawianych własnościach nazywane jest w literaturze oknem Ham- 
minga (uwaga na nieznaczną, ale istotną, różnicę w stosunku do poprzedniej 
nazwy okna Hanninga) i opisywane jest wzorem: 

h(a') = a— (l —a)cos (r) O<n <N-I (4.61) 
przy czym dobierając parametr a można w pewnym zakresie modulować 
wpływ odpowiednio składnika prostokątnego i funkcji typu cos?. Przyjmuje 
się często, że optymalna wartość a = 0,54, można jednak prowadzić bada- 
nia z różnymi wartościami wskazanego parametru. 
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4-42, Widmo okna 
prostokątnego 
(niekorzystny wpływ 
na wyniki analizy mają 
widoczne listki boczne) 


4-43, Widmo okna 
Bartletta 


4-44. Widmo okna 
Hanninga (korzystne 
jest tu szybkie 
malenie listków 
bocznych) 


A 4 [dB] 


Listki boczne 
WT 2/1 4/T ia 

A kldB] 

0 

-20|- 

—0|- 
ni l Ji — 
14T 2/T LIT t 
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ma) 


Jeszcze więcej zalet w stosunku do okna Hamminga mają: okna Black- 
mana; 


p 


1 


h(n') = 0,42— —05c0s | ) 00860 | E ) (4.62) 


N-1 


oraz okno Kaisera; 


N— -| _! N-1 
zly] -F-"27)] 
kaś > -( 2 | (4.63) 
A > | 


pozwalające dzięki doborowi parametru a dość swobodnie wymieniać 
szerokość pasma na amplitudę listków bocznych i na odwrót. Funkcja 7, 
to zmodyfikowana funkcja Bessela pierwszego rodzaju zerowego rzędu. 
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4-45. Widmo okna 
Hamninga (pierwszy -„9b 
i drugi listek boczny 
są silniej stłamione, 
niż w oknie Hanninga, ję 
dalsze jednak maleją 
wolniej) 


SE „20dB/dekadę 


UT 217 UT t 


Najciekawsze własności ma jednak okno Gaussa: 


h(n') = EE (4.64) 
Yżn0,14N 

Okno'tej postaci w ogóle nie wprowadza listków bocznych, gdyż widmo okna 
Gaussa jest — w skali logarytmicznej — parabolą o ramionach opada- 
jących ze wzrastającą stromością (rys. 4-46). Jednak poszerzenie pasma 
przez to okno jest największe i wynosi 90%, W sumie okno Gaussa jest 
rzadziej stosowane w analizie mowy niż zasługuje ze względu na swoje za- 
lety. Być może przyczyną jest fakt rutynowego (na przykład w sensie wbudo- 
wania w aparaturę przetwarzającą różnych firm) stosowania okien Han- 
ninga lub Hamminga. 
W odniesieniu do wszystkich okien czasowych warto odnotować jedną 
wspólną cechę, stanowiącą istotny czynnik przy metrologii parametrów 
widmowych różnych sygnałów. Otóż poza oknem prostokątnym, które 
przenosi do analizy widmowej pełną moc wejściowego sygnału, wszystkie 
inne okna wycinają jedynie kawałek sygnału, tłumiąc jego fragmenty w po- 
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4-46. Widmo okna 
Gaussa całkowicie 
pozbawione jest 
listków bocznych 


L L 
VT 217 441 t 


ł Sygnot we, 


A aa R z 
by | | 


ł Funkcja wagowe 


ł sygnat do ar 


ANY 


447, Ilustracja procesu ważenia czasowego : wejściowy sygnał dźwiękowy (u góry) przemnażany jest 
przez funkcję wagi (w prezentowanym przypadku jest to funkcja Gaussa pokazana na środku rysunku) 
w wyniku otrzymuje się sygnał podlegający analizie (w postaci pokazanej na dole) 


bliżu końców okna. Zilustrowano to na rys. 4-47 dla okna gaussowskiego, 
ale porównanie kształtów różnych okien czasowych (rys. 4-48) pozwala 
stwierdzić, że problem ten występować będzie przy dowolnej funkcji okna. 
W przypadku analizy mowy i jej rozpoznawania nie ma to istotnego zna- 
czenia, gdyż proporcje pomiędzy składowymi o różnych częstotliwościach 
nie ulegają przy tym zmianie i kształt widma — będący najczęściej obiektem 
zainteresowania i podstawą do rozpoznawania — nie ulega zmianie. Jednak 
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dla porządku należy wskazać, że wprowadzając okno czasowe wprowadza- 
my także tłumienie sygnału w stopniu możliwym do wyznaczenia z równa- 
nia 


P= + 2 UJĘ (4.65) 


Przykładowo, dla okna Gaussa P = 0,25, co oznacza, że analizowany 
sygnał na skutek „ważenia” go oknem czasowym ma obniżony poziom 
© około 6 dB. 


4 nin) 
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4-48, Porównanie kształtów omawianych okien czasowych wskazuje na ich duże podobieństwe — 
z wyjątkiem okna prostokątnego, mającego w rezultacie najmniej korzystne własności 


Sposób obliczania widma dynamicznego wynika ze wzoru definicyjnego 
(4.55), możliwe są tu jednak pewne modyfikacje, o których warto wspom- 
nieć. Wprowadzając oznaczenie w dla operacji splotu: 


a() «bln = ) a(Dbln=1) (4.66) 


la: — co 

można równość (4.55) zapisać w postaci 

Glk,n) = [g(n)e" 7] « h(n) (4.67) 
co odpowiada schematowi pokazanemu na rys. 4-49. Na schemacie tym 
sygnał wejściowy g(n) jest mnożony przez czynnik zależny od częstotliwości 
e"J2ekn_ po czym podlega filtracji dolnoprzepustowej (filtr dolnoprzepus- 
towy o odpowiedzi impulsowej k(n)). Układ taki jest przydatny do kolej- 
nego wyznaczania przebiegów sygnału w poszczególnych pasmach często- 
tliwości, 
Możliwy jest także odmienny zapis i odmienny schemat. Zapisując zależność 
(4.55) w postaci: 


Glk,n = e j2rkn 2 g()k(n— 1)e'?=kn=n (4.68) 


I=-o 
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można otrzymać następującą funkcję splotową: 
G(k, n) = e" 37748 (o(n) + [h(n)e'?7**]) (4.69) 


co odpowiada schematowi pokazanemu na rys. 4-50, Sygnał g(n) jest wów- 
czas poddawany filtracji środkowoprzepustowej (filtr środkowoprzepu- 
stowy o odpowiedzi impulsowej kh(n)e'?=*%, co jest bardziej przydatne 
przy wyznaczaniu wartości widma dla wszystkich częstotliwości k równo- 


cześnie. 
EM 
SO] wnseżme | —— 
Glen) 


4-49, Układ wyznaczania dynamicznego widma 4-50. Układ wyznaczania widma dynamicznego 
sygnału mowy, przydatny do kolejnego sygnału mowy, przydatny do wyznaczania 
wyznaczania przebiegów w poszczególnych wartości widm chwilowych dła wszystkich 
pasmach częstotliwości pasm częstotliwości równocześnie 


Obliczanie krótkookresowej transformaty Fouriera można usprawnić mo- 
dyfikując przytoczone wzory na jeden z dwu możliwych sposobów. Pierwszy 
z nich opiera się na przekształceniu wzoru (4.55) za pomocą podstawienia 
nowej zmiennej / = /' +n, 


Wówczas: 
Z i2nk(i' +ny 
Glk,n) = )) gl'+nh(-P)e" "W" = 
ł'=-o 
iżnkn <> jni'k 
=e7 WO | g('+n)k(= je" "W" 
rzZw 


Zastępując sumowanie w przedziale nieskończonym sumowaniami cząstko- 
wymi w przedziałach niezerowych wartości funkcji okna (o długości N) 
otrzymuje się kolejno: 

mN+N-l 


jżrckn jźnk 
Gk,np=e""F" , 0), g('+n)k(-De" = 


jarkn j2ni'k 
=e7 WDJE(,ne” W” (4.71) 


gdzie suma w ostatniej wprowadzonej postaci zbioru jest N-punktową dys- 
kretną transformatą Fouriera. Może ona być wyliczona za pomocą omówio- 
nego wyżej algorytmu FFT dla zmodyfikowanych ciągów £ (7, n) opisa- 
nych splotem 


CJ 


sl',n="5. sm+l +mN)k(-I-mN) (4.72) 


m=—w0 


obliczanym dla I" = 0, 1, ..., N—1. Warto zauważyć, że wzór (4.72) odwo- 
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4.4. 


łuje się do sumowania w skończonym przedziale ze wzgłędu na własności 
funkcji okna k(n). 

Inne korzystne przekształcenie wzoru (4.15), ułatwiające otrzymanie widma 
dynamicznego sygnału z wykorzystaniem tzw. świergotowej transforma- 


2 2 _nż 
ty Z, otrzymuje się po podstawieniu kl = LANS = kk. 


2 2 2 
_ jk? jri2ż 
Gik,np=e "* [Z,n)se”"] (4.73) 
gdzie: 
_ me 
$0,n) = g(Dk(k-De * (4.74) 


Zasadnicza zaleta wzoru (4.73) w stosunku do wcześniej wprowadzonych 
polega na tym, że zakłada ona stosowanie filtru o skończonej odpowiedzi 
impulsowej, której postać jest fragmentem ciągu zespolonego e"F/N, 
a filtry tego typu można realizować w szczególnie dogodny sposób. 


Parametryczny opis sygnału mowy 


W przytoczonych uprzednio rozważaniach uzasadniono tezę, że najbar- 
dziej przydatne do analizy mowy jest widmo dynamiczne G(k, n), nazwane 
także przebiegiem czasowo-częstotliwościowym sygnału, spektrogramem 
dynamicznym lub wideogramem. Widmo to zawiera jednak bardzo wiele 
szczegółów, co łatwo zauważyć na rys. 4-35 --4-40. Tak duża liczba szcze- 
gółów utrudnia interpretację zapisu przy analizie sygnału, porównywanie 
z wzorcami przy jego rozpoznawaniu oraz badanie skutków zakłóceń 
i zniekształceń przy jego przesyłaniu. We wszystkich omówionych przypad- 
kach cełowe jest posługiwanie się opisem sygnału mowy i jego zmienności 
w kategoriach pewnych wybranych parametrów. Przy starannie wybranych 
parametrach możliwe jest pogodzenie dwu — z pozoru wykluczających się 
— wymagań: maksymalnej zwartości opisu i zachowania wszystkich, nie- 
zbędnych w ustałonym zastosowaniu, szczegółów rozważanego sygnału. 
Parametrów stosowanych przy analizie i rozpoznawaniu mowy jest wiele, 
o niektórych z nich będzie jeszcze dodatkowo mowa w kolejnym rozdziale; 
wszelako szerokie wykorzystanie i powszechne uznanie zdobyły tylko nie- 
które z nich i dlatego o nich głównie będzie mowa w tym rozdziale. Znaczna 
część wymienianych parametrów wynika z charakterystyk amplitudowo- 
-częstotliwościowych sygnału i dlatego bywa nazywana parametrami 
widmowymi. Liczne z nich uwzględniają też czasową zmienność wid- 
ma sygnału i dlatego nazywane bywają parametrami widmowo- 
-czasowymi. Są wreszcie itakie, które odwołują się do dziedziny czasu, 
ale odtwarzanej z widma i dła tych najtrudniej znaleźć wspólną nazwę, bę- 
dziemy więc mówilio parametrach korelacyjnych icep- 
stralnych nie eksponując wspólnej nazwy ich wewnętrznego podobień- 
stwa. 
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Zaczniemy od parametrów widmowych. Mając określone — dyskretne dla 
ustalenia uwagi — widmo sygnału mowy G(k) możemy skoncentrować ana- 
lizę na parametrach opisujących jego kształt. Łatwe do obliczenia i — jak 
się okazuje — bardzo przydatne w analizie są momenty widmowe. 
Moment m-tego rzędu określić można ogólnie jako 


M(m) = VIG(H| LAT" (4.75) 
k=0 


gdzie f, jest częstotliwością środkową k-tego pasma wyróżnionego w anali- 
zie częstotliwościowej. Przyjmuje się przy tym, że f, = 0 (gdyż G(0) oznacza 
składową stałą sygnału), dla stałych zaś szerokości pasm analizy, wyno- 
szących A/, wartości f4 mogą być wyliczane ze wzoru 


hh = (E-1Af+ ŻL (4.76) 


Z momentów widmowych opisanych wzorem (4.75) najistotniejsze znaczenie 
ma moment zerowego rzędu M(0)*, wykorzystywany do normalizacji 
momentów wyższych rzędów. Do interpretacji wygodniejsze są bowiem 
momenty unormowane 


M(m) 
M(0) 
Przykładowo moment unormowany pierwszego rzędu może być interpreto- 
wany jako „środek ciężkości”” widma, czyli częstotliwość reprezentująca — 
przy unimodalnym (jednogarbnym) widmie — wierzchołek widma, a przy 
widmie zawierającym wiele składowych — ich średnią ważoną. Unormo- 
wany moment pierwszego rzędu odgrywa w analizie mowy znaczącą rolę 
i można wykazać jego przydatność w zadaniach rozpoznawania — szczegól- 
nie głosek szumowych. Mniej przydatne są momenty — nawet unormowa- 
ne — wyższych rzędów, gdyż są one w oczywisty sposób skorelowane ze 
sobą, a ponadto, w odróżnieniu od momentu pierwszego rzędu, nie mają 
przekonywającej interpretacji. Aby uzyskać użyteczne i wnoszące istotnie 
nowe elementy parametry widmowe, trzeba sięgnąć do momentów central- 
nych — unormowanych lub nie. Przykładowo, użyteczny w analizach jest 
centralny unormowany moment drugiego rzędu, reprezentujący kwadrat 
„szerokości”” widma. Ogólnie unórmowany moment centralny m-tego rzędu 

może być wyliczany ze wzoru: 


M,(m) = (4.77) 


Ma.lm) = ) |GQEIL— MOI" /M(0) (4.78) 


k=0 
i użyteczne bywają — obok wspomnianego M,„(2) także momenty rzędów 
3,4i 5, pozwalające opisywać różne typowe deformacje struktury widma 
G(k). Najbardziej przydatne są momenty M,„(1) oraz M,„(2). Ich wzory 


* Przy obliczaniu momentu zerowego pojawia się problem związany z częstotliwością fo. 
Będziemy zakładać, że [fo] = 1, podobnie jak dla wszystkich innych /. 
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definicyjne — wynikające z przytoczonych ogólnych formuł — są następu- 
jące: 


18 


IGR 


MA) = (4.79) 
2, IG(EI 
k=0 
2 GAIA IGO IGI] 

M„„(2) = => iz End (4.80) 


© 
2 IGC| 
is0 

Interpretacja wprowadzonych parametrów jest (rys. 4-51), jak wspomniano, 


bardzo prosta. M,(l) można utożsamiać ze średnią (ważoną) częstotli- 
wością widma, a M,„(2) oznacza kwadrat unormowanej szerokości widma. 


Widmo chwilowe Ula T+ 512[ms] 


> 
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4-51. Interpretacja 
dwu wybranych 
momentów widmowych 
jako parametrów A 
charakteryzującyc! R 
generalne własności 8 
widma: jego L 
położenie oraz 0.0 +0 4,0 6 80 10,0 12,0 
szerokość Częstotliwość [kHz] 
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Parametry te mogą być wyznaczane dla całego widma, mogą również do- 
tyczyć wydzielonych jego fragmentów. W ten sposób między innymi para- 
metry M,„(1) bywają używane jako zamienniki formantów, jeśli pasma częs- 
totliwości, w których się je wyznacza, odpowiednio ograniczone zostaną do 
obszarów odpowiadających występowaniu odpowiednich formantów (patrz 
dalej). Naturalnie korzystając z takiej definicji ,,przybliżonego formantu” 
musimy liczyć się z dużymi błędami w ich lokalizacji, w stosunku do położe- 
nia rzeczywistych formantów. Zaleta metody, jaką jest prostota pomiaru, 
przeważa jednak często nad względami teoretycznymi i metodyka zbliżona 
do omówionej tu bywa stosowana nagminnie w prostszych systemach roz- 
poznawania mowy dla potrzeb, na przykład, sterowania maszyn rozkazami 
wydawanymi głosem. Możliwe są zresztą dalsze uproszczenia. W praktycz- 
nych realizacjach przyjmuje się niekiedy, że parametr M,„(1) można aproksy- 
mować z zadowalającą dokładnością przez obliczanie częstości przejść 
przez zero rozważanego sygnału (por. p. 4.1). Naturalnie w ten sposób 
popełnia się kolejne odstępstwo od założeń teoretycznych i jakość rozpozna- 
wania, uzyskiwana takimi uproszczonymi metodami, jest bardzo niska. 
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4-52. Skrajnie 


Jednak prostota konstrukcji systemu rozpoznawania jest w tym przypadku 
atutem nie do pogardzenia: układ składa się wówczas z kilku filtrów i licz- 
ników przejść przez zero (rys. 4-52). Układ taki można z powodzeniem 
wykonać w warunkach domowych i użyć — na przykład — do wprowadza- 
nia parametrów sygnału mowy do komputera domowego (Sinclair ZX 
Spectrum C-64, Atari czy nowocześniejszego). Doświadczenia licznych 


uproszczony układ 


wprowadzania 


parametrów sygnału 
mowy do maszyny 


cyfrowej. Filtry 
nastrojone są na pasma 


odpowiadające Ę 

zakresom | pea 4 sz 
częstotliwości m = 2 p ——— 1 
występowania Licznik przejść N Wiikókosttęć 
formantów, a liczniki Sygnał 2 przez zero 3 |--2 p 1 
przejść przez zero Mowy Gł 7 Mła Ę [MBZ 
określają (od razu EJ 


w formie cyfrowej) 
częstości formantów. 
Układ może być 


przydatny przy próbach Lo==s= 


z wykorzystaniem 


t | 
rozpoznawania mowy 
domowych komputerów 


amatorów potwierdzają przydatność takiego układu do rozpoznawania 
prostych elementów mowy polskiej. Bez trudu można za jego pomocą 
identyfikować samogłoski, niektóre spółgłoski, proste wyrazy, komendy itp. 
Nie jest to oczywiście jeszcze system rozpoznawania mowy z prawdziwego 
zdarzenia, ale jako pomoc dydaktyczna może być nieoceniony, a jako uzu- 
pełnienie popularnego komputera osobistego stanowi atrakcję dla tysięcy 
entuzjastów domowej informatyki. 

Wracając do zasadniczego toku wykładu można tytułem uzupełnienia do- 
dać, że również pozostałe parametry wywodzące się z momentów widmo- 
wych znajdują zastosowanie w analizie i rozpoznawaniu mowy. Przykładowo 
parametr M(0) wyznaczany w odpowiednich pasmach częstotliwości może 
być użyteczny, na przykład, do wykrywania różnicy pomiędzy głoskami 
dźwięcznymi i bezdźwięcznymi (w głoskach dźwięcznych i tylko w nich 
występuje obszar koncentracji energii w zakresie niskich częstotliwości 
(około 100 Hz), co jest związane z występowaniem podstawowej harmonicz- 
nej tonu krtaniowego). Wiele innych głosek można rozróżniać, badając sto- 
sunki zawartości energii w wybranych pasmach widma — a do tego nadaje 
się doskonale parametr M(0). Inne momenty widmowe znajdują także 
ciekawe zastosowania i mają liczne możliwości, jednak niewielu badaczy 
sięga do tych parametrów i wykorzystuje je w swoich pracach. 

Często wykorzystywane są natomiast formanty. Jest to podstawowa grupa 
parametrów, używana do analizy, przetwarzania i rozpoznawania mowy 
przez praktycznie wszystkich badaczy zajmujących się problematyką mowy. 
Wynika to z wielu faktów. Zacząć jednak wypada od definicji formantu, 
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aby dokładnie wiedzieć, o czym właściwie jest mowa. Jak wynika z rozważań 
przytoczonych w rozdziale 2, proces artykulacji mowy to świadome kształto- 
wanie obwiedni amplitudowo-częstotliwościowej dźwięku generowanego — 
(tonu krtaniowego lub/i szumu) za pomocą celowych ruchów języka, żuch- 
wy, warg i podniebienia. Z oczywistych powodów w centrum zaintereso- 
wania większości badaczy znajduje się głównie proces formowania dźwięku 
mowy, a nie — mniej lub bardziej przypadkowy — proces fonacji (generacji 
tonu). Proces kształtowania artykułowanego sygnału polega — w dużym 
uproszczeniu to formułując — na tworzeniu struktury dynamicznej traktu 
głosowego. Transmitancja modelu matematycznego ma wiełe biegunów, 
uwidoczniających się w widmie w postaci maksimów jego obwiedni. Właśnie 
te maksima nazywa się formantami, a częstotliwości, przy których 
występują —częstotliwościami formantowymi (rys. 4-53). 


4-53. Ilustracja pojęcia 
formantu. Widmo ma A 
charakter dyskretny 


(prążkowy), zatem Ra 
mówiąc o maksimum „J ormanty 
lokalnym mamy na a 

myśli maksimum jego ż, L 


obwiedni. Właśnie 
takie lokalne s R 
maksimum obwiedni AREA ae 
widma sygnału mowy Z 
nazywa się formantem, 
a częstotliwość, przy 
której występuje — 
częstotliwością 
formantową 


Ruchy narządów mowy zmieniają rozmiary i proporcje tworzących się 
wnęk rezonansowych, wobec tego formanty zmieniają swoje położenie, 
pojawiają się, znikają, zmienia się ich liczba, wielkość i lokalizacja — a ba- 
dacz śledząc te zmiany może bardzo dużo powiedzieć o procesie artykulacji, 
a tym samym o sygnale mowy. W szczególności, na podstawie analizy for- 
mantów można określić: co jest mówione (aspekt semantyczny), kto mówi 
(aspekt osobniczy) i jak mówi (aspekt badawczy, m.in. medyczny). Główna 
zaleta formantów polega na ich charakterystycznej konfiguracji, możliwej 
do określenia w charakterze wzorca dla większości głosek (w tym głównie 
samogłosek) — niezależnie od tego, kto je wypowiada, jak szybki jest proces 
artykułacji, jakie towarzyszą mu emocje itp. W związku z tą cechą formanty 
interesują głównie inżynierów łączności, którzy słusznie przypuszczają, że 
przesyłając w łączu telefonicznym wyłącznie informacje o lokalizacji for- 
mantów można uzyskać w urządzeniu odbiorczym zrozumiały sygnał mowy 
— przy ponad 70% oszczędności objętości przesyłanego sygnału (patrz 
p. 6.2). 

Formanty wydają się również nader interesujące z punktu widzenia procesu 
automatycznego rozpoznawania mowy. Ich względna stabilność osobnicza 
przy małej objętości informacyjnej czyni zadość wymaganiom, jakie stawia 
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się typowo parametrom, na których opiera się proces rozpoznawania — 
bliższe szczegóły p. 5.2. 

W tym rozdziale, mając świadomość użyteczności formantów, skupimy 
uwagę na bliższym ich określeniu oraz na problemie skutecznych metod 
ich wyznaczania. Podana opisowa definicja formantu nie zawsze może być 
wystarczająca, gdyż pojęcie obwiedni widma, które jest w niej użyte, nie 
jest wygodne w rozważaniach praktycznych. Rozważmy w szczególności 
przypadek głosek dźwięcznych. Ich widmo — co wynika z quasi-periodycz- 
nego przebiegu sygnału — ma charakter dyskretny. Pojawiają się w nim 
prążki odległe o wartość, będącą częstotliwością tonu krtaniowego — a więc 
typowo około 100 Hz. Efekt nałożenia na dyskretne widmo obwiedni za- 
wierającej maksimum jest silnie uzależniony od wzajemnego położenia mak- 
simum i prążków widma, co pokazano na kilku przykładach na rys. 4-54, 
Na drodze pomiarów możemy (w najlepszym przypadku) określić ampli- 
tudy prążków. Natomiast odtworzenie na tej podstawie obwiedni jest 
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4-54. Ze względu na dyskretny charakter widma położenie maksimum obwiedni może być trudne do 
złokalizowania. Pokazano kilka możliwych przypadków wzajemnego ułożenia obwiedni i prążków widma: 
a — lokalizacja formantu jest łatwa, gdyż wskazuje go wprost prążek o maksymalnej amplitudzie, b -— odpowiada 
„obramowaniu” maksimum przez prążki widma, których wysokość może być jednakowa lub różnić się bardzo mało, c — 
wysokość dwu prążków jest jednakowa, a odpowiadają one dwu formantom, d — odpowiada połączeniu sytuacji (c) i (b), e — 
prowadzi do nieuchronnego zgubienia formantu na skutek jego „wąskiej” obwiedni w porównaniu z odstępami prążków, fi — 
pokazuje, że nawet przy bardzo „wąskich” formantach możliwa bywa ich lokalizacja 


trudne, nawet bardzo trudne. Można wprawdzie próbować aproksymować 
przebieg obwiedni założoną postacią funkcji. Przykładowo biorąc pod uwa- 
gę trzy prążki można aproksymować położenie wierzchołka obwiedni — 
a więc lokalizować częstotliwość formantu -— zakładając, że przebieg ob- 
wiedni jest parabolą. Odpowiedni wzór i jego interpretację podano na rys. 
4-55. Nie jest to jednak w istocie rozwiązanie problemu, gdyż wcale nie- 
łatwo w praktyce określić, które trzy prążki brać pod uwagę. Dodatkowa 
trudność wynika przy tym z faktu, że sygnał mowy może zawierać wjele 
formantów. W badaniach szczegółowych mówi się o przynajmniej pięciu 
formantach, niektórzy badacze dopatrują się nawet siedmiu. Nawet ograni- 
czając rozważania do trzech podstawowych formantów, najczęściej roz- 
ważanych w praktyce, nie unikniemy trudności wynikającej z faktu, że dla 
niektórych głosek typowe położenie formantów zakłada ich wzajemne od- 
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ległości nie przekraczające kilkuset herców, przy odstępie prążków dyskret- 
nego widma wynoszącym ponad 100 Hz. Kolejny problem w wyliczaniu 
formantów wynika z powodu zakłóceń zniekształcających idealny obrys 
badanego widma. Jakąkolwiek metodę przyjmie się za podstawę przy okreś- 
laniu struktury widma chwilowego sygnału mowy — otrzymane widmo bę- 
dzie zawierało drobne, ale praktycznie nieuniknione deformacje przebiegu. 


4-55. Lokalizacja 

precyzyjnej wartości 

częstości formantowej A 

„Fjest na ogół trudna. ! 

Dysponując 

wartość jami amplitud FI] 
dyskretnych wartości żi Qyf;+ Azfy+ af 
widma g,, Qa, G3, G4 /| N a1+02+Q3 
oraz odpowiadającymi 7 . N 
im wartościarni / | A z. Azfz+agfg+a,f, 
częstotliwości J, f2, f3, / ; N ERA ZY TITO 
fa możemy wyliczać „ ai] a] | |as (aż N 

wartość przybliżoną F. h N 

lub F, przy czym wybór 
jednej z tych wartości 
bywa trudny a fe Fha M 1 


widmo chwilowe 


Poziom [dBł 
10 20 30 40 50 


4-56. Widmo chwilowe 
głoski a — na ik. 
podstawie takiego o : py WZ ZA 
widma wyznacza się 0 20 40 60 80 100 120 
formanty Częstotliwość [kHz] 


4-57. Widmo chwilowe 
głoski a w innym 
momencie czasu niż 

w przypadku opisanym 
na rys. 4-56. Widać, że 
lokalizacja formantów 
będzie w tym 
przypadku inna niż 

na poprzednim 
rysunku, chociaż oba 
widma pochodzą ze 
stanu ustałonego 

głoski a w tej samej 
wypowiedzi i powinny - ' ; : aw 
mieć identyczne 0 20 40 60 20 160 0 120 
parametry Częstotliwość [kHz] 


Widmo chwilowe 


56 
a 


Poziom [d8] 
40 


30 20 30 


Q 


Jeśli dodatkowo uwzględni się fakt, że sygnałowi mowy może towarzyszyć 
mnóstwo trudnych do usunięcia zakłóceń — problem pojawi się w całej 
swojej ostrości. Najlepiej ilustrują to konkretne przykłady. Na rysunkach 
4-56 i 4-57 pokazano dwie próbki krótkookresowego widma głoski a. Obie 
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próbki pochodzą z tej samej wypowiedzi i odpowiadają tzw. stanowi ustalo- 
nemu w wygłosie głoski — zatem powinny być identyczne, a przynajmniej 
ich formanty powinny być zlokalizowane w przybliżeniu w tym samym 
miejscu. Tymczasem nawet przy pobieżnym porównaniu obu rysunków 
powstają wątpliwości, przy czym dla uniknięcia niepożądanych efektów 
próbka sygnału mowy, którą analizowano, nagrywana była z wykorzysta- 
niem najwyższej jakości sprzętu profesjonalnego w warunkach absolutnego 
braku zakłóceń — w komorze bezechowej, gdzie dla częstości powyżej 16 Hz 
poziom ciśnienia akustycznego szumów wynosi praktycznie 0 dB. Zatem na- 
wet w sterylnych warunkach akustycznych i braniu pod uwagę najprostszej 
formy sygnału — stanu ustalonego samogłosek — istnieją trudności w loka- 
lizacji formantów. Jakich kłopotów należy więc oczekiwać przy lokalizacji 
maksimów obwiedni w szybkozmiennych partiach widma sygnału, który 
w dodatku może być zniekształcony przez szumy? 

Istnieje jeszcze jeden czynnik, do tej pory nie brany pod uwagę, a bardzo 
przydatny w analizie. Formanty, jako efekt ruchów artykulacyjnych na- 
rządów mowy, nie mogą zmieniać się zbyt szybko. Na tym zresztą w dużym 
stopniu opiera się ich użyteczność. Można więc wykorzystać do śledzenia 
przebiegu formantów związki między kolejnymi widmami. Pewna lokali- 
zacja formantu w ustalonym widmie chwilowym, odpowiadającym momen- 
towi czasu zlokalizowanemu wewnątrz rozpatrywanej wypowiedzi, może 


A 
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4-58. Przypadkowo większa wartość prążka na 4-59. Nawet rozległe ,,plateau” widma może 
„„zboczu”” widma na ogól nie musi wskazywać zawierać informację o lokalizacji formantu, jeśli 
na obecność formantu wcześniej i później znajdą się zbocza tworzące 


łącznie wyraźne maksimum lokalne widma 


znacznie ułatwić lokalizację tegoż formantu w momentach czasu poprzedza- 
jących rozważany lub następujących po nim. W rezultacie urządzenie lub — 
częściej obecnie — algorytm lokalizujący formanty śledzi ich powolne 
zmiany i w ten sposób łatwiej „wyławia” je spośród zakłóceń i szumów. 
Na koniec wreszcie do lokalizacji formantów można użyć algorytmów wy- 
korzystujących nie tylko lokalne, ale także globalne właściwości widma. 
Nie będzie więc wykryte jako formant pojedyncze maksimum widma po- 
łożone na „zboczu” (rys. 4-58), gdyż jest wielce prawdopodobne, że jest to 
typowy artefakt, skutek zakłóceń lub efekt uboczny — na przykład skutek 
nazalizacji. Będzie natomiast wykryty formant nawet w rejonie pozornie 
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Tablica 1, 


płaskim (rys. 4-59), jeśli otoczenie wskazuje, że powinien się tam znajdować. 
Dodatkowym ułatwieniem przy śledzeniu formantów może być uśrednianie 
rozważanego sygnału — w dziedzinie czasu (uśrednianie sądsiednich widm 
w spektrogramie dynamicznym) lub w dziedzinie częstotliwości (uśrednianie 
sąsiednich pasm w każdym momencie czasu). Bardzo przydatne są też empi- 
rycznie wyznaczone i znane granice pasm, w których oczekiwać można 
formantów dla mowy polskiej (tabl. 1). Wykorzystanie tych granic pozwala 


Orientacyjne granice [Hz] pasm częstotliwości, w których mieszczą się trzy pierwsze 
formanty głosek mowy polskiej 


Numer formantu | 1 | ż | 3 
- WE ; SEM 
Dolna częstotliwość graniczna 200 850 2100 


Górna częstotliwość graniczna 880 | 2350 3100 


eliminować niektóre „pseudoformanty”, pojawiające się uporczywie we 
wszystkich analizach rzeczywistego sygnału mowy, a także ułatwia przypi- 
sanie znalezionym formantom właściwych numerów porządkowych. Wbrew 
pozorom nie jest to sprawa drugorzędna, przeciwnie we wszystkich zastoso- 
waniach istotne jest, czy mamy do czynienia z pierwszym, czy na przykład 
z trzecim formantem o danej częstotliwości, a zakresy pasm częstotliwości 
formantowych zachodzą na siebie (por. tabl. 1). Ważne jest to również 
i ztego powodu, że w normalnym sygnale mowy formanty nikną i ponownie 
się pojawiają. Wobec tego całkowicie możliwa jest sytuacja, kiedy uda się 
zlokalizować dwa formanty, lecz będą to formanty drugi i czwarty, pierw- 
szego i trzeciego zaś nie będzie. Błędne ponumerowanie formantów unie- 
możliwi wówczas poprawne rozpoznanie odpowiedniego fragmentu wy- 
powiedzi i bardzo utrudni ich wykorzystanie przy optymalizacji transmisji 
mowy. 

Definicje formantów i opis metod ich lokalizacji w porównaniu ż wcześniej 
omawianymi momentami znacznie trudniej opisać matematycznie i wydobyć 
z ciągłego sygnału mowy — szczególnie metodami cyfrowymi. Nie wydaje się 
jednak celowe przytaczanie dość zawiłych wzorów i algorytmów wyliczania 
formantów w całości. Zainteresowany szczegółami Czytelnik proszony jest 
o wykorzystanie pozycji źródłowych, wymienionych w spisie literatury. 
W tej książce i dla potrzeb niniejszego rozdziału zaprezentowane zostaną 
uproszczone ujęcia formalne i naszkicowane zostaną jedynie główne idee 
najskuteczniejsze — jak się wydaje — algorytmu lokalizacji formantów. 
Punktem wyjścia przy określaniu formantów jest oczywiście widmo syg- 
nału mowy, przy czym w celu wykorzystania w analizie współzależności 
czasowych konieczne jest przyjęcie za punkt wyjścia spektrogramu dynamicz- 
nego G(k, n). Formant w punkcie o współrzędnej czasowej m i współrzędnej 
częstotliwościowej k wykrywany jest wtedy, gdy 


G(k, n) ż G(k+1,n) a G(k,n) ż G(k-1,n) (4.81) 
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a ponadto 


kmin Sk £ kmax (4.82) 


gdzie kmin I Kmax Są odpowiednio — w dyskretnej skali częstotliwości — 
wyrażonymi częstotliwościami ograniczającymi pasmo poszukiwanego 
formantu (por. tabl. 1). Zlokalizowany formant może być akceptowany, 
jeśli w poprzedniej chwili czasowej (n— 1) lub w następnej chwili czasowej 
(n+ 1) wykryty był formant w punkcie o współrzędnej częstotliwościowej k 
lub sąsiednich (k— 1) lub (k+ 1). 

Podstawowy problem polega na numeracji formantów. Jeśli wykryto 
w widmie chwilowym odpowiadającym chwili m pewną liczbę współrzędnych 
częstotliwościowych spełniających przytoczone warunki, to przypisuje się 
pierwszy numer współrzędnej o najniższej częstotliwości, drugi kolejnemu 
w skali rosnących wartości k, i tak dalej. Sama koncepcja jest zupełnie 
elementarna, jednak zapis w postaci wzorów matematycznych analogicznych 
do (4.81) i (4.82), w tym celu, aby cały opis miał jednolitą formę, nastręcza 
wiele trudności. Oczywiście można je pokonać komplikując odpowiednio 
zapis, powstają jednak wzory, których czytelność jest bardzo mała, a uży- 
teczność — jeszcze mniejsza. Poprzestaniemy tu więc na opisie słownym, 
poszerzając go o stwierdzenie, że graniczne numery pasm częstotliwości we 
wzorze (4.82) muszą być uzależnione od numeru poszukiwanego formantu, 
wobec tego kolejność postępowania przy wyznaczaniu formantów jest nastę- 
pująca. Najpierw lokalizuje się wszystkie częstotliwości spełniające warunek 
(4.81), po czym dokonuje eliminacji wykorzystując kontekst czasowy (są- 
siednie widma, dla chwili (m— 1) oraz (»m+ 1) oraz ewentualnie szerszy kon- 
tekst częstotliwościowy. Dopiero zaakceptowane punkty sprawdza się wa- 
runkiem (4.82), poczynając od elementu odpowiadającego najmniejszej 
częstości, o którym roboczo zakłada się, że jest formantem nr I, kolejno 
przechodząc do formantów o większych numerach. W rzeczywistych algo- 
rytmach dochodzą dodatkowe czynności, ułatwiające i przyspieszające 
poszukiwania. Przykładowo w opracowanym do tego celu algorytmie 
WRMP przebieg widma koduje się najpierw za pomocą funkcji trójwartoś- 
ciowej, określającej relacje między sąsiednimi „prążkami* w widmie (na 
zasadzie większy-równy-mniejszy, od czego zresztą pochodzi symbol me- 
tody), a dopiero potem; wyznacza się położenie hipotetycznych formantów 
i dokonuje kołejnych sprawdzeń. Problem szybkości lokalizacji formantów 
(lub — stawiając zagadnienie w sposób ogólny —- problem szybkości wy- 
znaczania parametrów sygnału mowy, jakiekolwiek by te parametry 
były) jest ważny w kontekście warunku funkcjonowania w czasie rzeczywis- 
tym stawianego typowo systemom analizy i rozpoznawania mowy. Warunek 
ten oznacza, że czas wyznaczania parametrów widma nie może być dłuższy, 
niż czas trwania niczerowych wartości okna czasowego służącego do wy- 
znaczania widma. Metoda WRMP daje możliwość pracy w czasie rzeczy- 
wistym, gdyż czas wykrycia formantów w widmie chwilowym nie przekracza 
4 ms, podczas gdy czas między kolejnymi widmami chwilowymi wynosi 
w eksploatowanym systemie 9 ms. 
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W celu zobrazowania metody lokalizacji formantów przytoczymy teraz serię 
rysunków, pokazujących kolejne ich etapy wykrywania, Na rysunku 4-60 po- 
kazano przebieg wideogramu przykładowo wybranego wyrazu. Na rysunku 
4-61 pokazano skutki zastosowania reguły wykrywania każdego maksimum 
lokalnego w widmie i traktowania go jako formantu. Widać wyraźnie, że 


4-60. Wideogram 
sygnału, w którym 
poszukiwane są 
formanty (wypowiedź 
serce) 


4-61. Pierwszy krok 
wydziełania punktów, 
odpowiadających 
prostej definicji 
formantu, prowadzi do 
wykrycia takiej liczby 
punktów, że tworzą one 
absolutnie chaotyczny, 
nieprzydatny do 

analizy obraz 


nawet w oryginalnym sygnale rzeczywiste formanty rysowały się wyraźniej 
niż w chaosie pików sygnalizujących wszystkie lokalne maksima. Tak więc 
reguła dana wzorem (4.81), przytaczana niekiedy jako definicja formantu, 
jest w najwyższym stopniu niewystarczająca do poprawnej lokalizacji. 
Pewne polepszenie i uporządkowanie obrazu dają reguły pozwalające uw- 
zględniać w lokalizacji formantu kontekst czasowy i szersze widmo, z:jego 
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4-62. Obraz formantów 
staje się bardziej 
czytelny, gdy dokona 
się ich sejekcji 

z uwzględnieniem 
kontekstu 


4-63. Ostateczny obraz 
przebiegu formantów 
zlokalizowanych 
rozważaną metodą 

jest klarowny 

i pozwala uprościć 
proces rozpoznawania. 
Obraz pokazany na 
tym rysunku zawiera 
istotnie mniej 
szczegółów w stosunku 
do obrazu 

źródłowego — rys. 4-60 
i jest bardziej 
uporządkowany 

w stosunku do obrazu 
uzyskanego 

z bezpośredniej 
definicji formantu — 
rys, 4-61 


cechami globalnymi. Wynik zastosowania tych kryteriów selekcyjnych po- 
kazano na rys. 4-62. Ostateczne wyselekcjonowanie fragmentów widma 
spełniających kryteria (4.82) oraz wprowadzenie warunków czasowej kon- 
tynuacji porządkuje obraz w sposób ostateczny, co pokazano na rys. 4.63. 
Przejście od rys. 4-60, będącego zapisem spektrogramu dynamicznego 
rozważanego sygnału, do rys. 4-63, będącego obrazem czasowej zmienności 
wybranych parametrów sygnału (w rozważanym przypadku — formantów), 
obrazuje drogę radykalnej redukcji ilości informacji zawartej w rozważanym 
odcinku sygnału mowy. 
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4-64. Inna wypowiedź, 


w której można 


lokalizować formanty, 


ryba 


4-65. Przebieg 


formantów wykrytych 


w wyrazie ryba 


Do zapisania w pamięci komputera w celu późniejszego rozpoznania lub do 
przesłania w kanale telekomunikacyjnym wygodniejsze jest podanie sygnału 
w formie parametrycznej, danej na rys. 4-63, niż w postaci źródłowego 
spektrogramu z rys. 4-60 lub—tym bardziej — źródłowego przebie- 
gu czasowego sygnału. Można się o tym przekonać, porównując rys.4-64 
i 4-65 — prezentujące zestawienie: spektrogram wyrazu i jego reprezentacja 
za pomocą przebiegu selekcjonowanych formantów. Podkreślmy raz jeszcze, 
że głównym celem i podstawowym atutem opisu sygnału mowy w formie 
parametrycznej jest redukcja informacji. Opis parametryczny — na przykład 
z wykorzystaniem formantów — zawiera znacznie mniej informacji, łat- 
wiej więc go umieścić w systemie rozpoznającym lub przesłać na odległość. 
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Temu samemu celowi służą zresztą także i inne opisy sygnału mowy, wy- 
korzystujące różne rodzaje parametrów. Podstawowy problem, jaki przy 
tym występuje, polega na zachowaniu w zredukowanym zestawie informacji 
mieszczących się w wytypowanych parametrach, wszystkich informacji 
istotnych z określonego, wybranego punktu widzenia. Formanty są para- 
metrami istotnymi z punktu widzenia semantycznej treści wypowiedzi. Ich 
rejestrowanie pomaga w procesie rozpoznawania mowy, a ich przesyłanie 
pozwala na odbiorczym końcu łącza rozumieć treść nadawanego komuni- 
katu. Z, punktu widzenia innych celów analizy lub przy odmiennych celach 
przetwarzania mowy bardziej przydatne okazują się inne zestawy paramet- 
rów, przy czym o niektórych spośród nich będzie jeszcze mowa. 

Przytaczane „trójwymiarowe” rysunki formantów służyły do oceny działa- 
nia procedur wydzielających je z ciągłego sygnału mowy oraż pozwalały 
zorientować się w roli poszczególnych etapów procesu wydzielania. Nato- 
miast do oceny przydatności formantów do rozpoznawania wypowiedzi 
oraz do oszczędnego przesyłania ich łączem telekomunikacyjnym bardziej 
użyteczne są „„mmapki”, powstające przy oglądaniu płaszczyzny „czas — 
częstotliwość” z góry i oznaczaniu trasy zmienności formantów na tej 
płaszczyźnie. Na rysunku 4-66 pokazano trajektorie” formantów dla trzech 
różnych wypowiedzi tego samego wyrazu. Nawet bez wnikania w szczegóły 
rysunku łatwo zauważyć podobieństwo kształtu zarysu zmienności forman- 
tów w poszczególnych wypowiedziach, które poza tym różniły się od siebie 
znacznie — nawet czasem trwania. „Mapki” te są charakterystyczne dla 
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35 czasu 
wyskalowana w milisekundoch 


UWAGA: 


a 
3 


określonej konkretnej wypowiedzi i mogą być podstawą rozpoznawania. 
Łatwo się o tym przekonać porównując identyczną prezentację innej wy- 
powiedzi, pokazaną przykładowo na rys. 4-67. 

Znaczenie formantów jest tak duże, że poszukiwano możliwości wyznacza- 
nia ich wartości i czasowych zmian w ciągłym sygnale mowy na drodze 
procesów przetwarzania informacji odległych od tradycyjnych metod prze- 
twarzania sygnałów. Jedną z takich prób było konstruowanie tzw. sieci 
neuropodobnych, wykrywających i śledzących formanty na bieżąco, w cza- 
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Wypowiedź STOS DREWNA 


. „Mapa” przebiegu formantów w trzech próbkach wypowiedzi stos drewna 


sie rzeczywistym — bez angażowania komputera. Nie wdając się w szczegó- 
ły, które w razie potrzeby znaleźć można w podanej na końcu książki litera- 
turze, można stwierdzić, że angażowanie dużych mocy obliczeniowych 
w proces wykrywania formantów jest nieracjonalne, gdyż jest to — z punktu 
widzenia całego systemu komputerowego — proces pomocniczy do pro- 
cesu pomocniczego, czyli w sumie uboczny. Równocześnie przeprowadzona 
dyskusja wskazała, że operacje wydobywania formantów z ciągłego sygnału 
mowy są złożone i pracochłonne. Jedyny sposób na usunięcie rysującej się 
sprzeczności polega na „wysunięciu” procesu wydobywania formantów do 
procesora specjalistycznego — preprocesora obsługującego głosowe wejście 
do komputera w sposób nie angażujący procesora głównego maszyny. 

Przyjmując takie założenie (rys. 4-68) możemy również zastanowić się nad 
optymalną architekturą preprocesora. Wiele względów przemawia tu za 


172 


użyciem techniki przetwarzania równoległego, odmiennej od technik stoso- 
wanych w tradycyjnej informatyce, a bliższych zasadom działania struktur 
nerwowych w mózgu. Jest to uzasadnione ze względu na narzucającą się, 
wynikającą z logiki wykonywanych operacji, równoległość procesów prze- 
twarzania informacji w poszczególnych kanałach — odpowiadających po- 
szczególnym pasmom częstotliwości, wydzielonym przez filtry. Jest to 


Procesor 


główny 


4-68. Struktura Mowa 
systemu komputerowego 

z preprocesorem do 
rozpoznawania Informacje 
i przetwarzania mowy alfanumeryczne 


także hipotetycznie uzasadnione faktem, że w mózgu — prawdopodobnie 
— zachodzą procesy analizy struktur widma sygnału mowy i przypuszczal- 
nie lokalizacja maksimów obwiedni amplitudowo-częstotliwościowej syg- 
nału odgrywa w tym procesie poczesne miejsce. Zachodzi jedynie pytanie, 
w jaki sposób i z jaką dokładnością procesy te dla potrzeb technicznych 
modelować. Można przyjąć, że jako element przetwarzający informację 
może być akceptowany element progowy (rys. 4-69). W elemencie takim 
sygnały wejściowe Xx;, X>, ..., Xx Są mnożone przez odpowiednio dobrane 
współczynniki („wagi”) wy, Wa, ..., W, Sumowane i porównywane z pro- 
giem p. Sygnał wyjściowy y otrzymywany z takiego elementu (nazywanego 
elementem neuropodobnym, ze względu na swoje ograniczone analogie 
z rzeczywistym neuronem, budującym struktury nerwowe mózgu) można 
przedstawić za pomocą wzoru: 


o gdy wii <p 
i=l 
y=lk() mx-p) gdy p<)|wx<e (4.83) 
ia] 
k(e-p) gdy) (w) > e 
i=i 


Okazuje się, że za pomocą takiego elementu można budować struktury 
o bardzo bogatych możliwościach w zakresie przetwarzania sygnałów, 
przy zachowaniu prostej realizacji technicznej i łatwej organizacji procesu 
przetwarzania w strukturach równoległych. Naturalnie do każdego konkret- 
nego zastosowania należy dobrać odpowiednią strukturę połączeń rozwa- 
żanych elementów, tak aby powstała sieć neuropodobna wydobywała 
z podanego sygnału odpowiednie parametry sygnału. W licznych pracach 
kilkoma różnymi metodami znaleziono wiele sieci neuropodobnych wydo- 
bywających formanty z wejściowego sygnału mowy. Na przykład, na 
rysunku 4-70 pokazano strukturę, która poza możliwością skutecznej lo- 
kalizacji formantów, jest niewrażliwa na zakłócenia i nieregularności „,mi- 
krostruktury”” analizowanego widma. 
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4-69. Uproszczony schemat komórki nerwowej, użyteczny przy projektowaniu systemów przetwarzania 
sygnałów, działających na zasadzie tzw. sieci neuropodobnych. Sygnały wejściowe oznaczono x;, ..., Xn, 
sygnał wyjściowy », a parametry w;, ..., w„ oznaczają wagi synaptyczne. Literą p oznaczono próg 
zadziałania komórki zgodnie z fizjologiczną zasadą „,wszystko albo nic”. Obok podano przebieg 
charakterystyki statycznej neuronu, stanowiącej uproszczoną wersję charakterystyk znanych 

z doświadczeń biologicznych 


4-70. Struktura sieci neuropodobnej, która może być użyta do wykrywania formantów. Możliwe jest 
użycie sieci o lepszych własnościach, niewrażliwych na większość możliwych deformacji sygnału, ale ich 
struktura jest bardzo rozbudowana. Szczegóły budowy tych sieci podane są w literaturze 


W uzupełnieniu prezentowanych rozważań warto powrócić raz jeszcze do 
omówionych na wstępie podrozdziału momentów widmowych. Nie stano- 
wią one — jak się wydaje — konkurencji dla formantów, lecz są cennym 
uzupełnieniem informacji zawartej w formantach. Formanty z zasady okreś- 
lane są w dźwięcznych fragmentach sygnału mowy, a swoją szczególną 
przydatność wykazują w analizie stanów ustalonych samogłosek i w śledze- 
niu stanów przejściowych większości spółgłosek dźwięcznych. Momenty 
wykazują szczególną przydatność w analizie głosek szumowych, dla których 
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4-71. Mapka przebiegu 


momentów 


widmowych 


w wypowiedzi azor. 


badanie lokalnych własności widma, takich jak formanty, pozbawione jest 

na ogół sensu, natomiast wiele informacji zawiera głobalny opis widma, 

dostarczany między innymi przez momenty. Kreśląc ,„„mapy” zmienności 

momentów, w analogiczny sposób jak uprzednio dla formantów, możemy 

również zauważyć regularności w ich przebiegu (rys. 4-71 i 4-72), Porównu- 

jąc te „mapki” z przebiegami podanymi na rys. 4-66 i 4-67 łatwo znajdujemy 
a. 8 27, 40 53 66 


- 


AZOR 


Momenty uzupełniają 
informację daną 

w postaci formantów 
(por. rys. 4-66) 

i stanowią cenne 
uzupełnienie 
informacji przy 


;skaiowana w milisekuncech 


Wypowiedź 


rozpoznawaniu 


potwierdzenie tezy o uzupełniającym charakterze informacji zawartej w mo- 
mentach widmowych w stosunku do tej, która jest wznoszona przez for- 
manty. Na marginesie można także odnotować fakt, że opierając się na 
samych momentach widmowych możliwe jest także rozpoznawanie nie- 
których prostszych klas głosek — na przykład bez trudu można rozpozna- 
wać opierając się wyłącznie na momentach wszystkie samogłoski oraz 
głoski szumowe. 

Momenty widmowe i formanty nie stanowią jedynych parametrów, których 
można używać przy opisie sygnału mowy. Do określonych celów można 
sygnał mowy opisywać stosując różne parametry, tak dobierane, aby w su- 
mie ich objętość informacyjna była wydatnie mniejsza od objętości wejścio- 
wego sygnału mowy, ale by zachowane były w nich te cechy źródłowego 
sygnału, które są przydatne z punktu widzenia ustalonego celu analizy. 
Parametrami takimi mogą być między innymi: omówiony wyżej parametr o 
(gęstość przejść przez zero sygnału i ewentualnie także jego pochodnych 
i całek), przebieg funkcji autokorelacji sygnału (przydatny przy określaniu 
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4-72. ,„Mapka” przebiegu momentów widmowych w wypowiedzi stos drewna 


Parametry 
sygnału 
mowy 


Widmowe Czasowe 


parametrów 

opisujących sygnał 
mowy. Liniami 
przerywanymi pokazano 
drogi uzyskiwania 
parametrów metodami 
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periodyczności sygnału badaniu funkcjonowania krtaniowego źródła tonu), 
parametry cepstrum sygnału (przydatne do rozpłatania wpływu traktu 
głosowego i źródła dźwięku na ostateczną postać sygnału) są wreszcie — 
warte osobnego omówienia — parametry metod liniowej predykcji sygnału 
mowy (tys. 4-73). 

Nie o wszystkich parametrach można tu napisać tak obszernie i dokładnie 
jak by należało, gdyż konieczne jest zachowanie właściwych proporcji po- 
między opisem metod, które już zyskały powszechne uznanie (takich jak 
wyszukiwanie formantów czy liniowa predykcja) a technikami zapożyczo- 
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nymi w istocie z innych dziedzin przetwarzania sygnałów i tam mających 
swoje obszerne uzasadnienie, bogatą literaturę i szczegółowo opracowaną 
metodologię. Wzmiankując więc raczej, niż dokładnie dyskutując, przedsta- 
wimy teraz kolejno metody autokorelacji i technikę cepstralną. 
Funkcja autokorelacji (rys. 4-74) sygnału opisanego przebiegiem czasowym 
x(t) dana jest wzorem: 
w 
R(T)= | x()x(t— Tydz (4.84) 
so 
Wykorzystywaną w analizie sygnału mowy własnością funkcji autokorelacji 
jest możność wykrywania na jej podstawie okresowości sygnału. Istotnie, 
obok wydatnego maksimum przy wartości 7: = 0 (wartość R(0) jest miarą 
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4-74. Twoczenie funkcji autokorelacji. Wartość tej funkcji dla wybranej wartości argumentu 7, 
(pogrubiony prążek na wykresie) wyznaczana jest na drodze uśredniania iloczynu danego przebiegu 
czasowego x(t) i przebiegu przesuniętego o wartość 7; (patrz lewa strona) 


wariancji przebiegu x(t) i zdecydowanie dominuje nad pozostałymi wszyst- 
kimi wartościami R(T)), w funkcji autokorelacji wykryć można wyraźnie 
maksima w punktach 7;, 73, ..., 74, przy czym każde maksimum sygnali- 
zuje obecność w sygnale x(ż) składowej periodycznej o okresie 7,, 7;, ... 
1, Ty (rys. 4-75). W odniesieniu do sygnału mowy technika ta bywa wy- 
korzystywana do wyznaczania częstotliwości tonu krtaniowego w dźwięcz- 
nych segmentach sygnału. Funkcję autokorelacji wygodnie jest wyznaczać 
za pomocą widma sygnału. Istotnie, oznaczając przez  transformatę 
Fouriera sygnału możemy zapisać: 


R(T) = F-H|F (OE) (4.85) 


przy czym prawdziwość zależności (4.85) wynika ze wzoru (4.84) i znanych 
własności przekształcenia Fouriera w stosunku do całki splotowej. Nawiasem 
mówiąc w przeszłości zależność (4.85) usiłowano wykorzystywać w odwrot- 
ną stronę, upatrując w niej wygodną metodę obliczeniowego wyznaczania 
transformaty Fouriera. Obecnie opracowanie algorytmu FFT tak uprościło 
obliczeniowe wyznaczanie widma sygnału, że chętnie sięga się do możli- 
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4-75. Obecność składowych okresowych w sygnale x(t) powoduje powstawanie maksimów funkcji 
autokorelacji przy wartościach 7 równych odpowiednim wartościom okresu składowych periodycznych. 
Rysunek ma charakter ilustracji sygnalizowanej tezy, a nie dokładnego wykresu; w szczególności oś 7' 
musi być traktowana jako nieciągła (wykropkowany fragment) z tego powodu, że oznaczając obecność 
maksimum w punkcie 7, musimy liczyć się z pojawieniem kolejnych w punktach 27;, 37, itd., 
analogicznie z Tą, 7a i 74. Założono więc, że 74 —- Ty 4X Ty i narysowano jedynie interesujący 

fragment osi 7. Podobnie oś wartości funkcji korelacji musiała być przerwana ze względu na zachowanie 
czytelnego obrazu przy jednoczesnym występowaniu zależności R(0) >> R(T) dla wszystkich 7 > 0 
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4-16. Technika obliczenia funkcji autokorelacji 
za pomocą prostego i odwrotnego 
przekształcenia Fouriera jest obecnie — ze 
względu na dostępność algorytmu FFT — 
najwygodniejszą drogą postępowania 


4-77. Model generacji sygnału mowy, używany 
przy analizie cepstralnej. Funkcja cepstrum 
umożliwia rozdzielenie w sygnałe x(t) 
składowych pochodzących od własności 
generatora G i przebiegu wymuszającego g(t), 
z oddzieleniem ich od składowych 
pochodzących od własności dynamicznych 
toru głosowego, wyrażających się jego 
odpowiedzią impulsową k(t) 


igliXIf)] 


4-78. Sposób obliczenia cepstrum z 

z wykorzystaniem transformaty Fouriera. 

W użyciu znajduje się również wariant 
metody, oparty na transformacie 2, 
Zasadniczym problemem przy analizie 
cepstralnej jest sposób traktowania operacji 
logarytmowania, oznaczonej w kółku. Jeśli 
przyjąć, że logarytmowaniu podlegają 
zespolone wartości X(f), wówczas mamy do 
czynienia z cepstrum zespolonym — 
dokładnym, ale kłopotliwym w analizie 

i obliczeniach. Jeśli natomiast brać pod uwagę 
logarytm modułu, wówczas obliczenia stają się 
prostsze, ale gubione są zależności fazowe 
sygnału 


wości wykorzystania podanego wzoru do wyliczania funkcji autokorelacji 


(rys. 4-76). 


Inną techniką opierającą się również na przekształceniu Fouriera jest analiza 
homomorficzna, czyli głównie wyznaczanie cepstrum sygnału mowy i bada- 
nie jego przebiegu. Analiza homomorficzna opiera się na dość ogólnych 
założeniach i dysponuje obszerną teorią, której nie ma potrzeby tu w ca- 
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łości przytaczać, zaczniemy zatem rozważania od punktu dogodnego dla 
praktyki analizy sygnału mowy. Niech 


xJ) = FIx(1] (4.86) 


będzie transformatą Fouriera sygnału mowy x(1). Wówczas cepstrum zespo- 
lonym sygnału x(:) nazwiemy przebieg czasowy obliczony ze wzoru: 


X(T) = F-! [inx(P] (4.87) 


Ważną własnością cepstrum (którego nazwa pochodzi od czytanego wspak 
słowa spectrum) jest możliwość nader łatwego rozdzielenia w nim wpływów 
generatora sygnału i własności układu go modulującego. Istotnie, niech 
sygnał x(t) powstaje (tak, jak to ma miejsce przy artykulacji mowy) przez 
kształtowanie sygnału generatora g(t) (na przykład tonu krtaniowego) 
przez układ o zmiennej odpowiedzi impulsowej h(t) (tor głosowy) (rys. 
4-77). Zakładając, że mamy do czynienia z układami liniowymi, możemy 
sygnał x(/) przedstawić w postaci całki splotowej sygnałów g(t) oraz h(t): 
ę 

x(t) = | g(D)K(T-raT (4.88) 
Jak wiadomo, splotowi w dziedzinie czasu odpowiada iloczyn w dziedzinie 
transformat Fouriera 


X([) = GY)H(J) (4.89) 
gdzie oczywiście G(f) = S[g(t)] oraz H(t) = S[h(t)], Kolejna operacja 
wyznaczania cepstrum, logarytmowanie, zamienia iloczyn ze wzoru (4.89) 
na jeszcze prostszą i wygodniejszą w dalszych operacjach sumę, która nie 
zmienia się po dokonaniu operacji odwrotnej transformacji Fouriera. 
W związku z czym: 

X(T) = G(T)+ H(T) (4.90) 
W tej postaci rozdzielenie składników pochodzących od pobudzenia krta- 
niowego i składowych zależnych od procesu artykulacji sygnału w trakcie 
głosowym jest już łatwe (rys, 4-78). Następnie, zależnie od potrzeb, można 
koncentrować uwagę wyłącznie na parametrach pobudzenia (na przykład 
do diagnostyki foniatrycznej) lub wyłącznie na efektach procesu artykulacji 
(na przykład do automatycznego rozpoznawania treści wypowiedzi). Warto 
zwrócić uwagę, że nader użyteczne parametry cepstralne nie zyskały jeszcze 
wystarczającego upowszechnienia w technice analizy i przetwarzania syg- 
nału mowy, przy czym główna przyczyna tkwi w fakcie, że operacje wyma- 
gane przy obłiczaniu cepstrum możliwe są w praktyce do wykonania jedynie 
na drodze cyfrowej, natomiast znacząca część badań nad sygnałem mowy 
była i jest prowadzona metodami analogowymi. Jedna z głównych trud- 
ności, jakie pojawiają się przy stosowaniu analizy cepstralnej, wynika z ko- 
nieczności operowania liczbami zespolonymi, gdyż już pierwsza zastoso- 
wana transformacja Fouriera powoduje, że przebieg X(f) staje się zespolony. 
Na szczęście w zastosowaniach praktycznych zamiast cepstrum zespolonego 
można stosować cepstrum wyznaczane w dziedzinie liczb rzeczywistych. 
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Możliwość takiego uproszczenia wynika z pewnej własności przekształcenia 
cepstralnego, którą podamy niżej bez dowodu, odsyłając bardziej dociekli- 
wych Czytelników do pozycji literatury zamieszczonych na końcu książki. 
Otóż wśród przebiegów czasowych poddawanych przekształceniu cepstral- 
nemu wyróżnić można klasę przebiegów minimalnofazowych. Dla tych 
przebiegów dowodzi się, że możliwe jest zastąpienie zespolonej wartości X(f) 
przez moduł widma |X(f)|, a co za tym idzie — możliwość zastąpienia 
logarytmowania liczb zespolonych logarytmowaniem liczb rzeczywistych. 
Dla przebiegów minimalnofazowych jest to postępowanie zapewniające 
taką samą dokładność, jak obliczenia za pomocą dokładnych, pełnych wzo- 
rów. Niestety, sygnał mowy w większej części swego przebiegu nie jest mini- 
malnofazowy. Ma to jednak mało istotny wpływ na przebieg analizy, gdyż 
dla sygnałów nieminimalnofazowych wartości cepstrum zachowują pełną 
informację o module widma, a nie o jego fazie. Natomiast w większości 
praktycznie prowadzonych analiz faza sygnału mowy, jak wielokrotnie 
podkreślano, nie jest brana pod uwagę. Wobec tego, utrata informacji 
o fazie, związana z korzystaniem z uproszczonej reguły wyliczania cep- 
strum, nie jest stratą ważną. 


1 2 3tlkHz] 
Widmo Lepstrum 


4-79, Widmo głoski a oraz obliczone na jego podstawie cepstrum (po prawej stronie rysunku), | 

w którego przebiegu wyraźnie zaznacza się składowa pochodząca od pobudzenia krtaniowego G(T) 
oraz, w okolicy T = 0, składowa pochodząca od procesu artykulacji H(T). Rozdzielenie tych dwu 
składowych jest teraz łatwe, a wynik — w postaci wyodrębnionego, przebiegu H(T) — jest bardzo 
przydatny przy rozpoznawaniu mowy 


Można wykazać, że składniki odpowiadające własnościom kanału głosowe- 
go mieszczą się w cepstrum w pobliżu wartości T = 0, co powoduje, że 
rozdzielenie składników KT) od G(T) we wzorze (4.89) może odbywać się 
przez przemnożenie przebiegu XT) przez funkcję ,,okna” o wartościach 
różnych od zera w pobliżu T == O (rys. 4-79). Wydzielony w ten sposób 
składnik HT) może zostać użyty do wielu celów. Po dokonaniu operacji 
odwrotnych do używanych przy tworzeniu cepstrum otrzymuje się sygnał 
o gładkiej obwiedni widma, odpowiadającej ruchom artykulacyjnym na- 
rządów mowy. Taka czynność, nazywana wygładzaniem cepstralnym, jest 
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nieocenioną pomocą przy wszelkich dałszych analizach i badaniach sygnału 
mowy. Możliwe jest także wykorzystanie analizy cepstralnej do wydzielenia 
tonu krtaniowego (składowej G(T) oraz do tworzenia mowy syntetycznej. 
Często stosuje się ją do usuwania z sygnału różnych form zakłóceń, echa, 
pogłosu, zniekształceń wnoszonych przez proces rejestracji sygnału (tą 
metodą „czyści” się archiwalne nagrania o dużej wartości historycznej lub 
artystycznej). Pojawiają się wciąż nowe i coraz bardziej interesujące do- 
niesienia na temat wykorzystania analizy cepstralnej. Należy oczekiwać, że 
w okresie, jaki upłynie od napisania tej książki, do chwili, kiedy dotrze ona 
do Czytelników, pojawią się nowe, ważne publikacje, nie ujęte w podanym 
spisie literatury. 
Zwróćmy :jeszcze uwagę na cztery ważne własności cepstrum zespolonego, 
wymieniane w literaturze, a mające zastosowanie w analizie mowy. Własnoś- 
ci te sformułujemy dla dyskretnych postaci zarówno sygnału x(t), jak i jego 
cepstrum XT), gdyż —jak wspomniano — cepstrum jest wyznaczane wy- 
łącznie metodami cyfrowymi. Zapiszmy zatem oryginalny sygnał mowy 
w postaci dyskretnego ciągu wartości cyfrowych x(n). Zamiast transformacji 
Fouriera użyjemy jej dyskretnej analogii, to znaczy transformacji %, zapi- 
sując ją X(2), dyskretną zaś postać obliczonego cepstrum zapiszemy w pos- 
taci ciągu X(N). 
Przy takich oznaczeniach wspomniane własności można sformułować 
w następującej postaci. 
1. Własność dotycząca składowej sygnału pochodzącej od odpowiedzi 
impulsowej traktu głosowego. Sformułować ją można w postaci twierdze- 
nia: jeśli ciąg wejściowy x(n) ma transformatę wymierną daną wzorem 

mę mo 
If d=az") [] A -2x2) 
x(z) = "> Ha (4.91) 


[I Q-c,z"') [I A - 42) 
Pr k=i 


to jego cepstrum zespolone można zapisać: 


k=h k=1 
X(N) = In |A| gdy N=0 (4.92) 
mi pi 
ca dE 
| a » N s N Sęrz? 
k=1 k=l 


Zauważmy, że jeśli wszystkie współczynniki ax, by, cw, dy są co do modułu 
mniejsze od jedności (co się zakłada przy wprowadzaniu wzoru (4.91), to 
składniki zawierające a, oraz cy odpowiadają minimalnofazowej części syg- 
nału, natomiast składniki zawierające b, oraz dy są odpowiedzialne za jego 
nieminimalnofazowość. W szczególności, rozważając dalej przypadek mini- 
malnofazowego sygnału będziemy zakładali wszystkie b, oraz dy równe zeru. 
Niezależnie jednak od minimalnofazowości sygnału — lub jej braku — 
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widać, że ciąg dany wzorem (4.92) maleje szybko ze wzrostem bezwzględnej 
wartości N. Szybkość tego malenia jest nie mniejsza od szybkości malenia 
ciągu 1/|N|. Upoważnia to do twierdzenia (wykorzystywanego wyżej), że 
składowych cepstrum pochodzących od sygnału odpowiedzi impulsowej 
traktu głosowego szukać trzeba w okolicy 7 = 0, co dla dyskretnych ciągów 
odpowiada wartości N = 0. 

2. Własność cepstrum zespolonego dotycząca sygnałów będących ciągami 
dyskretnych impulsów (w dziedzinie czasu) o różnych amplitudach. Cep- 
strum takiego przebiegu ma także postać ciągu impulsów o takich samych 
odstępach, jak w sygnale oryginalnym. Zmianie ulegają jedynie amplitudy. 
Może to być wykorzystane do wykrywania w cepstrum składników odpo- 
wiadających pracy generatora krtaniowego, którego sygnał można uważać 
za periodyczny lub quasi-periodyczny ciąg impulsów ciśnienia akustycznego. 
Oczywiście wniosek ten ma charakter przybliżony. Cytowana własność 
cepstrum dotyczyła impulsów idealnych o postaci zbliżonej do impulsów 
Diraca, podczas gdy ton krtaniowy ma formę ciągu impulsów piłozębowych. 
Niemniej impulsowy charakter tego sygnału dość wyraźnie uwidacznia się 
w cepstrum, co między innymi bywa wykorzystywane do wykrywania obec- 
ności pobudzenia krtaniowego (rozróżnianie dźwięcznych i bezdźwięcznych 
segmentów mowy) oraz do określania częstości tonu krtaniowego, gdyż 
odstępy między maksimami cepstrum odpowiadają wiernie okresowości 
tonu, a są znacznie wyraźniej widoczne (dla wartości 7 dalekich od zera) 
niż ewentualna okresowość w strukturze oryginalnego sygnału (rys. 4-80). 


Sygnot mowy H Cepstrum 


4-80. Okresowość przebiegu sygnału mowy (po lewej stronie rysunku) manifestuje się bardzo 
wyraźnymi pikami cepstrum (po prawej stronie, wskazane strzałkami). Jest to jedna z wygodniejszych 
metod wydzielania tonu krtaniowego i określenia jego parametrów (na przykład wysokości głosu 

w intonografie) 


3. Własność pozwalająca wiązać cepstrum wyliczone z modułu transforma- 
ty Fouriera (uproszczone) z cepstrum pełnym — dla sygnałów spełniają- 
cych warunek minimalnofazowości. Rozważając raz jeszcze wzór (4.82) 
dostrzegamy, że dla ciągów (sygnałów) minimalnofazowych cepstrum ma 
wartość O dla wartości N < 0(T < 0). Rozpatrując zatem zależność między 
cepstrum dokładnym X(N), a cepstrum przybliżonym (wyliczanym przez 
logarytmowanie modułu transformaty X(z) lub X(f) odpowiednio dla pro- 
cesów ciągłych) możemy stwierdzić, że dla wszystkich N > 0 zależność ta 


ma postać 
XN) = 2X,(N) (4.93) 


gdzie X „(N) oznacza cepstrum wyznaczone z modułu X(z) lub X(f). Osobnego 
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45. 


rozważenia wymaga jedynie przypadek N = 0. Okazuje się bowiem, że 
Xx(0) = 1,00). 

Przydatność przedstawionej własności jest bezdyskusyjna; korzystaliśmy 
z niej wcześniej często. Jednak sygnał mowy nie może być traktowany jako 
minimalnofazowy i dlatego w praktycznym stosowaniu wzoru (4.93) przy- 
datna jest kolejna, czwarta odnotowywana własność cepstrum zespolonego. 
Otóż jeśli rozpatrywany sygnał x(n) nie jest minimalnofazowy, to wówczas 
cepstrum X(N) wyznaczone zgodnie ze wzorem (4.93) (przy uwzględnieniu 
wyjątkowości przypadku N = 0 oraz przy wyzerowaniu wartości XW) dla 
N ujemnych) będzie cepstrum innego minimalnofazowęgo sygnału xm(n), 
mającego jednak identyczny jak sygnał x(n) moduł transformaty Fouriera. 
Innymi słowy — co było wyżej również wykorzystane — w przypadku 
kiedy sygnał mowy nie spełnia rygorów minimalnofazowości cepstrum 
przestaje reprezentować stosunki fazowe w rzeczywistym sygnale, ale nadal 
wiernie oddaje moduł jego widma. 

Reasumując należy raz jeszcze podkreślić charakterystyczne elementy opisu 
sygnału mowy. Zależnie od potrzeb można dobrać różne parametry w celu 
opisania tych własności sygnału, które z tego punktu widzenia są najbardziej 
przydatne. Parametry te — niezależnie od tego, jakie są, zmieniają się w cza- 
sie, gdyż sygnał mowy jest kształtowany w procesie artykulacji, jest zmienny 
w czasie i niesie w różnych momentach czasu różne informacje. Ponieważ 
opis parametryczny nie jest na ogół celem sam w sobie, lecz służy do optyma- 
lizacji przesyłania sygnału mowy przez łącze telekomunikacyjne lub do 
oszczędnej budowy algorytmów automatycznego rozpoznawania mowy, 
to wydaje się celowe na koniec zajęcie stanowiska wobec mnogości różnych 
parametrów i dokonanie próby wyboru parametrów, które — zdaniem 
Autora — najlepiej nadają się do wymienionych celów. Otóż nie biorąc pod 
uwagę dyskutowanych w dalszym ciągu zagadnień predykcji liniowej, celo- 
we wydaje się rekomendowanie zestawu złożonego z dwu dyskutowanych 
obszerniej momentów widmowych oraz trzech pierwszych formantów 
(a dokładniej — częstotliwości formantowych) — jako zestawu przenoszą- 
cego bardzo dużo informacji o treści analizowanej, czy przesyłanej wypo- 
wiedzi — bez nadmiernej rozbudowy ilości informacji zawartej w wyselek- 
cjonowanych parametrach. 


Technika predykcji liniowej w opisie sygnału mowy 


Rozwój metod komputerowych w analizie sygnałów — w tym także syg- 
nału mowy — prowadzi do sięgania przez badaczy do takich metod i tech- 
nik przetwarzania, które metodami analogowymi w ogóle nie mogły być 
realizowane, natomiast z użyciem szybkich, efektywnych metod komputero- 
wych mogą być prowadzone z konkurencyjnymi, w stosunku do tradycyj- 
nych metod, rezultatami. Jedną z najefektywniejszych i również często sto- 
sowanych metod tego rodzaju jest omawiana tu technika predykcji liniowej. 
Metoda ta ma wiele wariantów i odmian, bywa zresztą stosowana do róż- 
nych celów i jest przydatna do analizy wielu różnych rodzajów sygnału, 
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W kontekście analizy mowy uzyskuje się za jej pomocą bardzo zróżnico- 
wane wyniki — od opisu sygnału w formie ułatwiającej jego rozpoznawanie, 
przez oszczędny opis, wykorzystywany do skompandowanego przesyłania 
sygnału przez łącza, aż do celów badawczych, gdzie za pomocą predykcji 
liniowej wyznacza się geometryczne parametry tonu głosowego w trakcie 
procesu artykulacji określonych głosek. 

Istota metody polega na następującym stwierdzeniu. Ponieważ sygnał mowy 
x(n) powstaje w wyniku przekształcania sygnału źródła krtaniowego g(n) 
w trakcie głosowym o transmitancji (funkcji przejścia, będącej transforma- 
tą $ odpowiedzi impulsowej k(n)) wyrażającej się wzorem: 


ą 
1+ X, byz”* 


H(z) = G—5F— — (4.94) 


1+ ), ayz"* 
kal 


to może on być wyliczany ze wzoru — wynikającego natychmiast ze struk- 
tury transmitancji (4.94) — postaci: 


p 


[4 
x(n) = — ) a,x(n—k)+G )  bygln —k) + Gg(n) (4.95) 
ka=l 


k=t 


Warto zwrócić uwagę na predykcyjny charakter wzoru (4.95). Wartość 
sygnału x w chwili m jest przewidywana na podstawie poprzednich wartości 
sygnału x i sygnału g oraz na podstawie bieżącej wartości sygnału g. 
Niestety, przydatność wzoru (4.95) jest ograniczona ze względu na to, że na 
ogół nie znamy wartości g(n) dla żadnej wartości n. Dlatego opis traktu 
głosowego, który powinien mieć postać daną wzorem (4.94), zamieniamy 
do postaci zawierającej tylko bieguny: 

ja c= (4.96) 

1+), ayz"* 
k=1 


czemu odpowiada autoregresyjna zależność: 


p 
x(n) = — Y a,(n—k)-+Ggln) (4.97) 
k=l 
O sygnale g(x) nie mamy oczywiście żadnej informacji, zakładamy więc, że 
jego wartości są przypadkowe, i stawiamy zadanie znalezienia takich war- 
tości ay (k = 1,2, ...,p), aby minimalizować sumę kwadratów błędów, 
to znaczy rozbieżności między wartościami rzeczywistego sygnału x(n) 
a ich przybliżonymi wartościami, wyznaczonymi z zależności (4.97), przy 
pominięciu składnika Gg(n), który jest nie znany. Minimalizowaną funkcję 
można zapisać w postaci: 


E = Jo|x(m+ s abei 4.98) 
n k=] 
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a jej minimum można osiągnąć, wyznaczając współczynniki ax z p równań 
postaci: 


JE 
Jaz 


=0 k=1,2,..,p (4.99) 


lub po rozpisaniu: 


£4 
dia) x(n-ijx(n=k) = — Y|x(nafn=k) k=1,2,...,p 
ial n n 


(4.100) 


Gdyby zakres zmienności » w powyższych wzorach rozciągał się na prze- 
dział nieskończony, wówczas odpowiednie sumy byłyby współczynnikami 
ciągu autokorelacyjnego sygnału x(n) i rozwiązywanie równań (4.100) by- 
łoby znacznie uproszczone. Macierz układu równań (4.100) jest w takim 
przypadku macierzą Toeplitza, to znaczy wartości elementów wzdłuż każdej 
przekątnej byłyby identyczne. Niestety, wartości n, dla których znane są 
wartości x(n), są ograniczone i obliczenia nieco się komplikują, niemniej 
rozwiązanie jest zawsze osiągalne. W literaturze podanej na końcu książki 
można znaleźć zarówno propozycje różnych metod rozwiązywania układu 
równań (4.100), jak i teksty programów komputerowych (głównie w języku 
FORTRAN) do ich rozwiązywania. 

Po wyznaczeniu współczynników 24, można przyjąć ich wartości jako para- 
metry, na podstawie których będzie prowadzony proces rozpoznawania 
odpowiednich fragmentów sygnału mowy. Można je także przesyłać łączem 
telekomunikacyjnym, aby — wykorzystane na odbiorczym końcu łącza — 
służyły do syntezowania mowy, przesyłanej tym sposobem ze znaczną osz- 
czędnością objętości informacyjnej łącza. Można wreszcie, co często 
bywa głównym celem wyznaczania współczynników predykcji liniowej, 
obliczać ze znanych współczynników predykcji widmo sygnału. Dysponując 
wzorem (4.96) i znając wartości współczynników liniowej predykcji a4 moż- 
na na drodze prostych przekształceń znaleźć widmo sygnału a dokładniej, 
obwiednię widma, zależną tylko od własności artykulacyjnych narządów 
mowy i wolną od elementów przypadkowych i zbędnych szczegółów (na 
przykład prążków pochodzących od harmonicznych tonu krtaniowego). 
Doświadczenia wykazują, że widmo wyznaczone z wykorzystaniem tech- 
niki liniowej predykcji jest przynajmniej równie gładkie, jak widmo poddane 
wygładzaniu cepstralnemu, a znacznie „spokojniejsze” niż widmo wyzna- 
czane techniką FFT — nawet przy stosowaniu wyszukanych postaci okna 
czasowego. 

Technika predykcji liniowej, przedstawiona tu skrótowo w swojej podsta- 
wowej postaci, zawiera wiele problemów, wymagających dodatkowego 
uściślenia. Przykładowo otwarty jest problem liczby składników p we wzo- 
rze (4.97). Jest ona na ogół wybierana arbitralnie. Podobnie arbitralnie 
wybierany jest zakres zmienności parametru n we wzorach (4.98) i (4.100) — 
co ma szczególnie duże znaczenie przy stosowaniu predykcji liniowej 
zmiennej w czasie („kroczącej”” za zmianami struktury sygnału). Jak wspom- 


185 


4.6. 


niano wyżej, możliwe jest wykorzystywanie predykcji liniowej do wyznacza- 
nia parametrów kanału głosowego. W niektórych pracach wyznaczano na- 
wet profile narządów mowy w trakcie artykulacji poszczególnych głosek 
(rozkłady średnic wzdłuż osi traktu głosowego). O jakości metod predykcji 
liniowej świadczyć może fakt dobrej zgodności takich teoretycznie wyzna- 
czonych profili z rzeczywistym przebiegiem rozmiarów traktu głosowego, 
ustalonym na podstawie danych anatomicznych i fotografii rentgenowskich 
narządów mowy w trakcie artykulacji ustalonych głosek. 

W sumie technika predykcji liniowej może w dużym stopniu zastępować 
wszystkie wcześniej omówione techniki analizy sygnału mowy, gdyż może 
służyć do analizy widmowej sygnału, pozwala wykrywać szczegóły jego 
obwiedni (na przykład formanty), dostarcza parametrów umożliwiających 
efektywne rozpoznawanie sygnału i jego oszczędne przesyłanie, wreszcie 
stanowi mało poznane, a zapewne efektywne narzędzie w diagnostyce me- 
dycznej narządów mowy. 


Opis sygnału mowy z punktu widzenia teorii informacji 


Z poprzednich rozdziałów wynikało jednoznacznie, że środki informatyki, 
cyfrowe metody analizy i przetwarzania sygnałów, a także algorytmy i pro- 
gramy komputerowe, odgrywają współcześnie coraz istotniejszą rolę także 
i w dziedzinie analizy mowy. Logicznym następstwem tego faktu jest pa- 
trzenie na sygnał mowy z punktu widzenia teorii informacji i rozpatrywanie 
go jako strumienia bitów, koniecznego do wprowadzenia do systemu, 
przetworzenia, zapamiętania i ewentualnie także wyprowadzenia na zew- 
nątrz. 

Jak wiadomo, teoria informacji zajmuje się, wbrew swojej obiecującej naz- 
wie,jedynie pewnym aspektem informacji, mianowicie jej ilością. W dodatku 
Shannonowska definicja ilości informacji rozmija się w wielu przypadkach 
z potoczną intuicją, gdyż jako jedyne kryterium ilości informacji zawartej 
w określonym sygnale brane są jego odpowiednie miary probabilistyczne. 
Mierzona jest tu niepewność, wyrażana prawdopodobieństwami, i definio- 
wana jest ilość informacji, jako stopień zmniejszenia tej niepewności. Za- 
letą takiego podejścia jest jego asemantyczność, gdyż miara ilości informacji 
zawartej w sygnale nie jest związana z sensownością i przydatnością tej 
informacji (te pojęcia nie dają się wyrażać w sposób sformalizowany), 
a jedynie z parametrami fizycznymi sygnału. Istotnie, w kanale łączności 
lub w pamięci komputera informacja zajmuje tyle samo miejsca niezależnie 
od tego, co oznacza i czy ma sens. 

Przedstawiając niżej elementarny zapis opisu sygnału mowy w kategoriach 
teorii informacji należy uprzedzić Czytelnika, że zarówno z punktu widzenia 
tej pięknej, wysoce zmatematyzowanej teorii, jak i z punktu widzenia wiedzy 
o sygnale mowy — jest to opis niepełny. Istnieją jednak i są łatwo dostępne 
podręczniki, z których problematykę tę można -sobie dodatkowo prze- 
studiować, a ta książka ma być raczej przewodnikiem problemowym, a nie 
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encyklopedią. Zadaniem tego rozdziału jest więc jedynie zasygnalizowanie 
problemów i możliwości. 
Sygnał mowy z punktu widzenia teorii informacji można rozpatrywać jako 
łańcuch zdarzeń. Zdarzeniami są kolejne wypowiadane głoski, ich liczba 
jest ograniczona i dlatego nasza niepewność co do tego, która z nich będzie 
artykułowana, może być wyrażona ilościowo. Proces mówienia tę niepew- 
ność usuwa, możemy więc wiązać z sygnałem mowy taką ilość informacji, 
jaka była pierwotna niepewność co do tego, jaka głoska będzie wypowiedzia- 
na. Jednym z pierwszych i podstawowych osiągnięć teorii informacji było 
określenie związku między pojęciem niepewności elementarnego zdarzenia 
a wartością jego prawdopodobieństwa. Oznaczając przez 4 i B rozważane 
zdarzenia, przez p(4) oraz p(B) ich prawdopodobieństwa oraz przez H(4) 
i H(B) ich niepewności można zapisać dość oczywiste wymagania: 

jeśli p(4) > p(B), to H(A) < H(B) (4.101) 

jeśli p(4) = 1, to H(4) =0 (4.102) 


Wprowadzając dodatkowo dla niezależnych zdarzeń A i B oznaczenie AB 
dla ich jednoczesnego zajścia można postawić żądanie: 


jeśli p(AB) = p(4)p(B). to H(AB) = H(4)+ H(B) (4.103) 


Łatwo wykazać, że istnieje tylko jedna formuła matematyczna, spełniająca 
wszystkie postawione postulaty: 

H(A) = —log.p(4) (4.104) 
Miara nieoznaczoności, dana wzorem (4.104), nosi w literaturze miano 
entropii i jest bardzo użyteczna we wszystkich pracach związanych 
z teorią informacji. Pozostaje jedynie problem wyboru podstawy logarytmu a 
w podanym wzorze. Decyzja co do jej wyboru jest równocześnie decyzją 
odnośnie jednostek, w jakich niepewność, a w dalszej kolejności także ilość 
informacji będziemy wyrażali. Najczęściej wybierana jest podstawa a = 2, 
w związku z czym jednostka niepewności jest dwójkowa. Za jednostkową 
niepewność uważa się nieoznaczoność sytuacji wyboru dychotomicznego, 
tzn, istnienie alternatywy dwóch jednakowo prawdopodobnych zdarzeń. Od 
angielskiej nazwy tej jednostki: „binary unit” pochodzi popularny i często 
używany skrót: bit. Jeden bit informacji pozwala więc odpowiedzieć na 
proste, elementarne pytanie: tak lub nie. 
Do analizy mowy miara nieoznaczoności dana wzorem (4.104) jest nie- 
wystarczająca, gdyż w przypadku śledzenia łańcucha głosek swobodnie 
wypowiadanych mamy do czynienia w każdym momencie z problemem 
wyboru jednej spośród N możliwości. Następną głoską może bowiem być 
dowolna dopuszczalna w danym języku (łącznie z pauzą międzywyrazową), 
przy czym prawdopodobieństwo wystąpienia poszczególnych głosek może 
być wyznaczone empirycznie na podstawie badań językoznawczych i fone- 
tycznych. Przykładowo w tablicy 2 zestawiono prawdopodobieństwa okreś- 
lone dla poszczególnych fonemów języka polskiego. Widać, że pojawienie 
się kolejnego fonemu w ciągu rozpatrywać należy jako wybór konkretnej 
wartości zmiennej losowej (której wartościami są na przykład numery fo- 
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"Tablica 2. 


nemów w tablicy 2, z odpowiednimi prawdopodobieństwami ich wystąpie- 
nia), nie zaś elementarne zdarzenia, o których można mówić w kategoriach, 
że zaszły lub nie zaszły. Można się tu zresztą dopatrzyć także drugiej zmien- 
nej losowej, którą jest-entropia. Z każdym numerem i w tabl. 2 związane 
jest prawdopodobieństwo p, oraz obliczona na jego podstawie entropia 
— loga p; Można więc podjąć próbę określenia wartości oczekiwanej entropii 


Prawdopodobieństwa występowania poszczególnych fonemów języka polskiego. 
Zapis fonemów podańo w konwencji wynikającej z międzynarodowego systemu 
transkrypcji fonematycznej. W ostatniej kolumnie podano przykłady wyrazów, 
w których te fonemy występują 


Fonem Częstość Przykład użycia 


(-) 0,140 (pauza) 
(e) 0,088 chleb 
(a) 0,680 brat 
(0) 0,078 skok 
) 0.039 jodła 
(O) 0,038 tor 

(O) 0,035 ryba 
(n) 0,034 nora 
[O) 0,034 igła 

(r, 0,031 ryba 
(m) 0,030 matka 
w 0,030 woda 
(w 0,029 kruk 
(P) 0,027 pole 
(s) 0,026 sarna 
(k) 0,023 kot 

(5) 0,022 koń 
(d) 0,019 dom 
(w) 0,019 dłoń 
(U) 0,018 lody 
U 0,017 koszyk 
(z) 0,015 ząb 

(5) 0,013 świat 
(ts) 0,013 cena 
(f) 0,013 fajka 
(8) 0,013 góra 
(b) 0,013 burza 
(ts) 0,011 cichy 
(3) 0,010 żaba 
(o) 0,010 czytać 
(x) 0,009 herbata 
(dz) 0,007 dzwon 
(5) 0,007 bank 
(©) 0,006 kino 
(5 0,002 źrebię 
(d7) 0,002 dziura 
©) 0,001 gil 
(d3) poniżej 0,001 | drożdże 
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pojedynczego symbolu (głoski) w ciągłym sygnale mowy. Odpowiedni wzór 
podano niżej: 


8 
H= — V puogzpi (4.105) 
i=1 


Pozwala on, wraz z wartościami podanymi w tabl. 2, wyliczyć entropię 
pojedynczego fonemu w mowie polskiej. Odpowiednia wartość wynosi 
4,06 bit/głoskę. Przy czym warto zauważyć, że jest ona mniejsza od wartości 
entropii maksymalnej, osiągalnej przy takiej samej liczbie głosek. Istotnie, 
łatwo wykazać, poszukując maksimum wyrażenia (4.105) ze względu na 
prawdopodobieństwa p; (i = 1,2,...,n), że największą wartość entropii 
osiąga się przy równomiernym rozkładzie prawdopodobieństwa. Ponieważ 
suma prawdopodobieństw p; musi wynosić 1 (jakiś fonem zawsze jest 
wypowiadany, skoro pauzę zaliczyliśmy do nich), wobec tego wszystkie p; 
są dla maksymalnej entropii równe 1/n i wartość maksymalnej entropii 
można wyliczyć z prostszej formuły 


Hqqx = 1Ogzh (4.106) 


Przy przyjętej liczbie fonemów wartość Hy,„x wynosi ponad 5 bitów /fonem, 
natomiast nierównomierny rozkład prawdopodobieństwa fonemów powo- 
duje zmniejszenie tej wartości. Skoro tak, to uwzględnienie dotychczas po- 
mijanego faktu istnienia kontekstu i jego wpływu na prawdopodobieństwa 
poszczególnych fonemów zapewne jeszcze bardziej obniży zawartość infor- 
macyjną pojedynczego fonemu. Przypuszczenie to jest w pełni uzasadnione. 
Rozbudowując wzór (4.105) w sposób umożliwiający wykorzystanie praw- 
dopodobieństw warunkowych, a także wykorzystując prezentowane w lite- 
raturze prawdopodobieństwa warunkowe par, trójek i większych zestawów 
fonemów stwierdzamy, że w miarę rozszerzania kontekstu i uwzględniania 
powiązań coraz większej liczby głosek entropia pojedynczego fonemu syste- 
matycznie maleje. Spadek ten jest dość wyraźny do kontekstu około 5 fo- 
nemów, potem malenie entropii jest wolniejsze. Przy kontekstach rzędu 10 
i więcej fonemów entropia praktycznie się ustala i przyjmuje najniższą 
obserwowaną — a jednocześnie prawidłową z punktu widzenia rozważania 
zawartości informacyjnej sygnału mowy jako całości — wartość, wynoszącą 
około 1 bit/fonem. 

Warto skupić uwagę na tym wyniku: okazuje się, że mowa jako system 
komunikacyjny charakteryzuje się dużą redundancją (nadmiarowością). 
Ze względu na nierównomierne częstości występowania poszczególnych fo- 
nemów w sygnale mowy, a także z powodu istnienia związków konteksto- 
wych między elementami mowy jej rzeczywista nośność informacyjna wynosi 
niespełna 20% teoretycznych możliwości. Innymi słowy, spojrzenie na syg- 
nał mowy z punktu widzenia teorii informacji ujawnia redundancyjność 
tego sygnału. Nadmiarowość, o której mowa, odgrywa ważną rolę przy 
przekazywaniu mowy, gdyż zabezpiecza zwiększoną niezawodność przeka- 
zywania informacji. Dzięki temu, że nie wszystkie fonemy są jednakowo 
prawdopodobne, możemy odgadnąć fonem, który rozmówca zniekształcił 
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podczas szybkiej i niezbyt starannej wypowiedzi. Na skutek istnienia związ- 
ków kontekstowych pomiędzy elementami mowy można rozumieć wypo- 
wiedź częściowo zagłuszoną szumami. System porozumiewania przy braku 
redundancji jest narażony na bezpowrotne straty części informacji, co może 
prowadzić do całkowitej niemożności komunikowania się. 
Nadmiarowość ta, widziana oczami inżyniera analizującego mowę dla po- 
trzeb jej automatycznego rozpoznawania, jest korzystna z podobnych przy- 
czyn. Niedoskonałości systemu identyfikacji fonemów czy analizy na płasz- 
czyźnie akustycznej mogą być — zapewne — kompensowane za pomocą 
analizy kontekstu i zastępowania błędnych, bezsensownych identyfikacji 
elementów mowy —- jej kontekstowo uzależnionymi, sensownymi i prawdo- 
podobnie poprawnymi zamiennikami. 

Natomiast z punktu widzenia inżyniera telekomunikacji redundancja to 
balast. Owszem, wprowadza się przy transmisji danych — na przykład 
cyfrowych — dodatkowe bity zabezpieczające przed przekłamaniami. Bywa 
ich kilka w kilkunastobitowym słowie, stanowią więc poniżej 10% całości 
transmitowanej informacji. Ale żeby wprowadzać nadmiarowość ponad 
80%? Dlatego w systemach telekomunikacyjnych sygnał mowy usiłuje się 
pozbawić informacyjnego balastu, poszukując metod oszczędnych transmisji, 
dokonuje się rozmaitymi technikami kompresji sygnału. Na razie — mało 
skutecznie. Nadal przesyłane są dziesiątki niepotrzebnych bitów, gdyż mowa 
--obok nadmiarowości strukturalnej, którą oceniano uprzednio — ma 
przynajmniej trzy dodatkowe źródła nadmiaru, możliwe do wykrycia przy 
dyskutowaniu jej własności z punktu widzenia teorii informacji. 

Pierwsze ze wzmiankowanych Źródeł tkwi w „„rozwlekłości”” sygnału mowy 
rozpatrywanego jako przebieg czasowy. Teoria informacji pozwala bowiem 
określić ilość informacji zawartą w sygnale o czasie trwania 7, szerokości 
pasma częstotliwości F' i zakresie dynamiki D. Można tego zresztą dokonać 
na kilka sposobów, na przykład wprowadzając we wzorze (4.105) zmienną 
losową ciągłą w miejsce dyskretnej i zastępując sumowanie całkowaniem, 
albo odwołując się do procesu dyskretyzacji sygnału (por. rozdz. 4.1), który 
w istocie zamienia sygnał ciągły na zbiór dyskretnych wartości. Nie wdając 
się tu w rozważania teoretyczne możemy posłużyć się wzorem 


H = cEDT (4.107) 


który pozwala wyznaczyć nieoznaczoność (a więc i pojemność informacyjną 
sygnału). Współczynnik skalujący c może być przyjęty jako równy 1/3 
(konieczność wprowadzenia tego mnożnika wynika z faktu, że przy wylicza- 
niu decybeli stosuje się logarytmy dziesiętne, a nie dwójkowe, jak we wzo- 
rach (4.105) i (4.106) i wówczas dla F' [Hz], D [dB] i 7 [s] wartość H wyzna- 
czana jest w bitach. Próby przeliczeń wykonane z użyciem wzoru (4.107) 
prowadzą do interesujących wyników, zwłaszcza jeśli porównać je z wcześ- 
niej określonymi wartościami asymptotycznymi pojemności informacyjnej 
sygnału przeliczonej na pojedynczy fonem. Przy założeniu pełnego pasma 
akustycznego, wynoszącego 20 000 Hz, i pełnego zakresu dynamiki, sięga- 
jącego 80 dB, sygnał mowy reprezentuje strumień informacji o objętości 
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ponad 500 000 bitów/s. Krótka wypowiedź, np. Ala ma Asa, trwająca przy 
powolnej artykulacji blisko 2 s, odpowiada objętości informacyjnej 10% bi- 
tów — to jest pojemności pamięci średniej wielkości komputera! Tymczasem 
rzeczywista objętość informacji tej krótkiej, dziesięciofonemowej wypowiedzi 
nie przekracza — ustaliliśmy to wszak uprzednio — 10 bitów. Stosunek 
objętości informacyjnej sygnału do jego nośności w sensie treści semantycz- 
nych wyraża się więc liczbą rzędu 105. Jest to bez wątpienia wynik szoku- 
jący. 

Oczywiście przytoczonym rozważaniom można zarzucić, zupełnie słusznie, 
demagogiczność. Mowę można rozumieć przy pasmie znacznie węższym od 
20 kHz, a rozpiętość dynamiki rzędu 80 dB osiągalna jest jedynie w warun- 
kach laboratoryjnych. Ograniczmy się więc do realnych, a nawet mini- 
malnych wartości pasma i dynamiki. Niech pasmo ograniczone zostanie do 
szerokości 3 kHz (a więc mniej niź standard telefoniczny), a zakres dyna- 
miki niech wynosi < 40 dB. Nawet w tych warunkach objętość informacyjna 
sygnału będzie znaczna: 40 000 bitów/s. Dużo, dla wielu zastosowań o wiele 
za dużo. Z tego właśnie powodu poszukiwaliśmy w poprzednich podroz- 
działach takiej reprezentacji sygnału, która oszczędniej koduje przydatne 
z rozważanego punktu widzenia aspekty sygnału, a pozwala usuwać zby- 
teczny nadmiar. Warto jednak mieć świadomość ograniczoności wyników, 
uzyskiwanych tymi metodami. Na przykład, orientacyjna objętość sygnału 
mowy zredukowanego do postaci spektrogramu dynamicznego wynosi przy- 
najmniej 10 000 bitów/s, a reprezentacja za pomocą formantów i momen- 
tów widmowych wymaga (zależnie od dokładności) kilkuset bitów na se- 
kundę. 

To nadal dużo, bardzo dużo. Najdoskonalsze systemy dokonujące kompresji 
sygnału mowy do jej oszczędnego przesyłania na duże odległości (na przy- 
kład działające z wykorzystaniem metody predykcji liniowej) dają sygnał 
o objętości około 2000 bitów /s. Tymczasem, powtórzmy to raz jeszcze, nawet 
przy bardzo szybkiej artykulacji rzeczywista objętość informacyjna sygnału 
mowy nie przekracza 10 bitów/s (przyjmując ,„oszczędną” reprezentację, 
zajmującą zaledwie jeden bit informacji na jeden fonem). Dlatego tak wiele 
nadziei budzą udane próby automatycznego rozpoznawania mowy. Gdyby 
mowę przed wysłaniem rozpoznawać, kodować cyfrowo i na odbiorczym 
końcu łącza resyntezować — oszczędności byłyby ogromne. 

Zagadnienie nadmiarowości informacyjnej sygnału mowy na tym się nie 
kończy. Rozważaliśmy nadmiarowość wynikającą na poziomie akustycz- 
nym (wynikającym ze stosowania wzoru (4.107) oraz na poziomie fonema- 
tycznym korzystając ze wzoru (4.105)). Przechodząc na kolejny poziom, 
to znaczy interesując się całymi wyrazami, spotykamy się z kolejnym przeja- 
wem nadmiarowości sygnału mowy. Liczbę wyrazów w konkretnym języku 
trudno dokładnie ocenić, są ich jednak z pewnością dziesiątki tysięcy. Tym- 
czasem w częstym użyciu jest ich znacznie mniej. Językoznawcy znają to 
zjawisko i badają je, układając tak zwane słowniki częstościowe. Słownik 
częstościowy jest spisem wyrazów badanego podzbioru języka z podaniem 
częstości ich występowania. Dysponując takim słownikiem można bez trudu 
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obliczyć, ile wyrazów (a także które) pozwala na zrozumienie określonej 
części wypowiedzi — lub formułując to samo w inny sposób — znajomość 
jakiej liczby wyrazów zapewnia z określonym prawdopodobieństwem możli- 
wość zrozumienia dowolnej wypowiedzi. Badania te są ważne i interesujące 
z tego powodu, że wykazują, jak niewiele w istocie wyrazów jest w częstym 
użyciu i jak duża nadmiarowość mieści się w dużych słownikach. 
W celu uproszczenia dalszych rozważań przyjmiemy za podstawę ujęcie 
analityczne — przybłiżone w swojej istocie, ale dające wystarczający dla 
naszych potrzeb, klarowny obraz. Otóż zależność między pozycją (numerem 
kolejnym „i*) określonego wyrazu w słowniku częstościowym, a prawdo- 
podobieństwem użycia tego wyrazu wyraża tak zwane prawo Zipfa: 
A 

P="BiCi 
Parametry 4, B oraz C zależne są od wziętego pod uwagę podzbioru języka, 
inaczej bowiem kształtują się proporcje określone prawem Zipfa dla języka 
potocznego, inaczej dla języka literackiego, jeszcze inaczej dla rozważań 
naukowych. Co więcej, każdy autor ma sobie tylko właściwą skłonność do 
używania jednych i unikania innych wyrazów, zatem określając parametry 
4, Bi C dla dostatecznie długiej próbki tekstu można wnioskować — cho- 
ciaż nigdy nie jest to wnioskowanie całkowicie pewne — spod czyjego pióra 
tekst ten wyszedł. Próbowano tej metody na przykład w celu ustalenia 
autorstwa wielu dzieł, które tradycja przypisuje Szekspirowi. Pozostawiając 
jednak to językoznawcom skupmy się na użytkowej własności wzoru (4.108). 
Otóż, stosując go można dość łatwo określić wymaganą liczbę wyrazów N, 
aby w dowolnej odbieranej wypowiedzi nie znalazł się ani jeden wyraz nie- 
znany —- z założonym prawdopodobieństwem P < 1. Oznacza to, że poszu- 
kujemy N spełniającego warunek: 


(4.108) 


N N 
NYszA 
27 - 25i? p (4.109) 


Dla konkretnego podzbioru języka i dla założonej wartości p można ze 
wzoru (4.109) każdorazowo wyznaczyć N, przy czym okazuje się, że nawet 
przy wartościach P przekraczających 90%, uzyskiwane liczebności N są 
zaskakująco małe, poniżej tysiąca*. Innymi słowy, znając zaledwie nie- 
spełna tysiąc wyrazów można z prawdopodobieństwem przewyższającym 
90% rozumieć dowolne wypowiedzi. Zestawienie tego wyniku ze słownikami 
liczącymi dziesiątki lub setki tysięcy haseł stanowi wymowny dowód kolej- 
nego źródła nadmiarowości sygnału mowy. 

Na koniec warto dołączyć kilka uwag na temat gramatyki, jako źródła ko- 
*' Rozważania matematyczne oparte na wykorzystaniu prawa Zipfa potwierdzono 
wielokrotnymi badaniami eksperymentalnymi na naturalnym sygnale mowy. Między 
innymi badania firmy Bell w latach trzydziestych oparte na analizie zarejestrowanych 
rozmów telefonicznych wykazały, że wśród 80 tys. wyrazów, 30 z nich stanowiło 50% 
ogółu wypowiedzianych słów, 155 — 80%, a 737 — 96%. Inne badania, prowadzone 
przez Glenna i Hitchcoocka w symulowanym systemie kontroli ruchu powietrznego, wy- 
kazały, że możliwe jest rozpoznanie 13 tys. zdań opierając się na słowniku składającym się 


tylko z 54 wyrazów. (Przypis sporządzono na podstawie uwag Recenzenta książki, dr, 
Ryszarda Gubrynowicza). 
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lejnej nadmiarowości sygnału mowy. Reguły składniowe, narzucające 
określone uporządkowanie szyku wyrazów i ich form powodują, że nawet 
brak wyrazu lub całego fragmentu zdania nie zawsze musi wiązać się z bra- 
kiem możliwości zrozumienia całej wypowiedzi. Przeciwnie, okazuje się, że 
kluczowe znaczenie dla zrozumienia sensu+zdania ma jedynie kilka spośród 
tworzących go wyrazów, pozostałe zaś pełnią funkcje uzupełniające. Roz- 
kład wyrazów w zdaniu, ich porządek, zestawienie, kontekst — niosą nie- 
kiedy tak wiele informacji, że odtworzenie brakujących elementów może być 
dokonane ze stuprocentowym prawdopodobieństwem. W naturalnym języ- 
ku jest to środek zabezpieczający zrozumiałość mowy niestarannej, nie- 
dokładnie artykułowanej, niekiedy wadliwej gramatycznie lub zakłóconej 
w inny sposób. W systemach technicznych może to być źródłem dodatko- 
wych możliwości lub dodatkowych problemów, zależnie od tego, czy będzie- 
my starali się to zjawisko wykorzystać, czy przeciwnie, podejmiemy próbę 
eliminacji jego skutków. 
Podsumowując ten rozdział można stwierdzić co następuje. Teoria informacji 
dostarcza narzędzia, które w zastosowaniu do sygnału mowy pozwala 
oszacowywać jej objętość informacyjną, a tym samym pozwala określić 
. wymagania odnośnie pamięci komputerów przetwarzających mowę i po- 
jemności kanałów telekomunikacyjnych, wykorzystywanych do jej trans- 
misji. Przy okazji tych rozważań udało się wskazać na bardzo istotny prob- 
lem redundancji (nadmiarowości) sygnału mowy. Nadmiarowość ta wy- 
stępuje zarówno na płaszczyźnie akustycznej (w czasowym, częstotliwościo- 
wym i amplitudowym wymiarze sygnału mowy), fonematycznej, leksykalnej 
i syntaktycznej. Jednoznaczna ocena tej nadmiarowości jest niemożliwa. 
Jej obecność w podobnych proporcjach w każdym bez wyjątku* języku 
świata dowodzi, że w warunkach naturalnej komunikacji głosowej nadmia- 
rowość ta jest niezbędna. Istnienie tej nadmiarowości warunkuje niezawod- 
ną komunikację w obecności zakłóceń. W systemach technicznych redun- 
dancja jest szkodliwa, gdyż powoduje niepotrzebne zajęcie pamięci kompu- 
tera lub ogranicza przepustowość łącza telekomunikacyjnego. Usuwa się ją 
zatem wszelkimi dostępnymi środkami, mając przy tym na względzie możłi- 
wość ewentuałinego uprzedniego wykorzystania podlegającego eliminacji 
nadmiaru dla podniesienia wiarogodności analizy lub rozpoznania sygnału 
mowy. Konkretne przykłady takiego postępowania podane zostaną w ko- 
lejnych rozdziałach. 


*) Badano metodami teorii informacji odmienne od mowy systemy komunikacji między- 
ludzkiej. Analizowano „mowę” afrykańskich tam-tamów, różne systemy pisma, egipskie 
hieroglify i węzełkowe pismo prekolumbijskich kultur Ameryki. Okazało się, że nadmiaro- 
wość występuje wszędzie, żaden system komunikacji nie jest od niej wolny, a procentowe 
wielkości stopnia nadmiarowości okazywały się dla wielu zupełnie odmiennych w swej 
naturze systemów porozumiewania — bardzo zbliżone. Widocznie człowiekowi dla kom- 
fortu odbioru informacji taki nadmiar jest niezbędny, widocznie oszczędniejsze kodowanie 
informacji, tak korzystne i chętnie stosowane w technice jest obce naszej psychice, a nad- 
miarowość, będąca wygodnym „,spadochronem” dla naszej niestarannej mowy czy pisma 
jest czymś koniecznym, Fakt ten trzeba brać pod uwagę przy opracowywaniu systemów 
komunikacji pomiędzy człowiekiem i maszyną, które w obecnej postaci są zbyt techno- 
centryczne i dlatego męczące, niewygodne i nie akceptowane przez człowieka. 
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5.1. 


Sygnał mowy w automatyce 


Rola sygnału mowy w systemach sterowania 


W poprzednich rozdziałach przedstawiono informacje o własnościach syg- 
nału mowy, sposobach jego analizy i prezentacji. Niniejszy rozdział wraz 
z następnym są poświęcone dwu najbardziej typowym obszarom praktycz- 
nego wykorzystania tej wiedzy. 

Na gruncie automatyki sygnał mowy jest wykorzystywany oczywiście do 
komunikacji pomiędzy ludźmi a systemem sterującym określony obiekt. 
Obiekt może mieć rozmaity charakter. Najczęściej rozważane są procesy 
produkcyjne: chemiczne, metalurgiczne, wydobywcze, energetyczne, ma- 
szynowe. Nie wyczerpuje to jednak listy rozważanych obiektów, gdyż możli- 
we jest także rozważenie systemów automatycznego sterowania różnych 
pojazdów i systemów komunikacyjnych (od pojedynczego samolotu czy 
okrętu do całych zautomatyzowanych lotnisk, portów, sieci metra lub sy- 
stemów transportu wewnątrzzakładowego). Do klasy rozważanych syste- 
mów należeć też mogą wszelkie systemy komputerowe o rozmaitym prze- 
znaczeniu: do obliczeń naukowo-technicznych, do przetwarzania danych, 
edukacyjne, doradcze, banki informacji, systemy ekspertowe. Wszystkie 
te złożone zastosowania komputerów także wymagają sterowania, a syste- 
my sterujące proces świadczenia usług informatycznych muszą — w natu- 
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ralny sposób — komunikować się z ludźmi. Zresztą rozgraniczenie między 
wymienionymi wyżej typami obiektów ma w całości charakter umowny. 
W skład większości systemów produkcyjnych wchodzą także procesy trans- 
portowe, a komputery o rozmaitym przeznaczeniu „„wrosły” już w większość 
bardziej złożonych systemów produkcyjnych. 

W istocie zatem nie rodzaj automatyzowanego obiektu, lecz zakres i cha- 
rakter kontaktów pomiędzy człowiekiem a systemem jest głównym wyznacz- 
nikiem potrzeb w zakresie wykorzystania sygnału mowy i dlatego raczej ten 
punkt widzenia będziemy prezentować w dalszych rozważaniach. Na wstępie 
należy zwrócić uwagę na fakt, że przy rosnącej złożoności podlegających 
sterowaniu procesów, a także przy postępującej ich automatyzacji charakter 
kontaktu pomiędzy człowiekiem a sterowanym procesem technicznym na- 
biera cech dialogu pomiędzy dwiema inteligentnymi indywidualnościami. 
Człowiek stawia systemowi zadania, a nie tylko — jak w rozwiązaniach 
prymitywniejszych -— steruje jego pracę. Z kolei system komunikuje czło- 
wiekowi wysoce przetworzoną i opracowaną informację o swoim stanie, 
a nie tylko udostępnia wyniki pomiarów ustalonych zmiennych, parametrów 
i wskaźników. W rezultacie komunikacja pomiędzy człowiekiem i maszyną 
upodabnia się — w sensie zakresu, charakteru i tematyki — do komunikacji 
pomiędzy ludźmi, traci natomiast podobieństwo do sterowania maszyn 
poprzedniej generacji. Tym samym także środki techniczne, używane po- 
przednio do sterowania: dźwignie, pokrętła, wyłączniki, a także klawiatury 
przestają być przydatne, natomiast poszukuje się metod i form kontaktu 
pomiędzy człowiekiem i maszyną dostosowanych do nowych zadań. W tym 
kontekście rozważać trzeba możliwość i celowość wprowadzenia sygnału 
mowy jako nośnika informacji wymienianej pomiędzy człowiekiem i ma- 
szyną. Rozważania te muszą osobno dotyczyć obydwu kierunków: od ma- 
szyny do człowieka i od człowieka do maszyny. 

Sygnał mowy jest niewątpliwie najbardziej naturalnym i najszybszym*” 
sposobem porozumiewania pomiędzy ludźmi, dlatego jego użycie przy 
przekazywaniu informacji od czy do operatora lub dyspozytora zautomaty- 
zowanego systemu zapewnia w wielu przypadkach nieosiągalny na innej 
drodze komfort psychiczny. Osiągnięcie takiego komfortu nie jest wyłącznie 
kwestią wygody człowieka i miarą nowoczesności całej konstrukcji. Prze- 
ciwnie, jest to sprawa konkretnych i wymiernych korzyści, gdyż wiadomo 
już od długiego czasu, że w złożonych systemach, obejmujących zarówno 
ludzi, jak i maszyny, słabym punktem nieodmiennie okazuje się rejon styku. 
Zapewnienie operatorowi komfortu w obcowaniu ze sterowaną maszyną 
wpływa na podniesienie szybkości i trafności jego działania, a równocześnie 
ogranicza do rozsądnego, akceptowalnego minimum prawdopodobieństwo 
pojawiania się błędów w pracy operatora. Należy także zwrócić uwagę, że 
w warunkach szczególnie trudnych (brak oświetlenia, przeciążenia, wibracje, 


*> Przekazując informacje za pomocą mowy osiąga się prędkość 50 bit/s przy tempie 
mówienia 10 głosek/s, natomiast za pomocą dalekopisu można przesłać 30 bit/s przy 
tempie 60 słów/min. Kod Morse'a pozwala pracować w tempie 6 bitjsek (dla wprawnego 
operatora). 
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zagrożenie) sterowanie głosem może okazać się jedyne zapewniające roz- 
sądną sprawność działania. Nie przypadkiem zagadnienia rozpoznawania 
mowy rozważane są w ośrodkach badań kosmicznych, w instytutach lot- 
niczych, w wojsku. 

Ustaliliśmy więc, że rola głosowego, wykorzystującego sygnał mowy, wejścia 
do systemu sterującego będzie nieodmiennie rosła w miarę postępu w auto- 
matyzacji i robotyzacji. Warto dodać, że przy komunikacji w prze- 
ciwną stronę, przydatność i użyteczność sygnału mowy nie wydaje się tak 
bezsporna. Człowiek jest „„wzrokowcem”, najwięcej informacji w najkrót- 
szym czasie może odebrać i zanalizować za pomocą oczu, nie wspominając 
o tym, że wzrokowo bardzo łatwo wykrywa się wszelkie prawidłowości, 
regularności, symetrie itp. własności prezentowanej informacji, lub — prze- 
ciwnie— wydobywa się i ustala nieregularności i zakłócenia. Doprawdy wiele 
głębokiej prawdy jest w chińskiej maksymie, liczącej już blisko trzy tysiące 
lat: Jeden obraz daje więcej niż sto słów. W komunikacji pomiędzy ludźmi 
informacja obrazowa nie odgrywa tak doniosłej roli, jak by można było 
oczekiwać po tych wszystkich uwagach, lecz przyczyna tego stanu rzeczy 
jest trywialna: człowiek nie dysponuje sprawnym efektorem obrazowym, 
każdy rysunek wymaga pracy — zbyt dużej, jak na potrzeby doraźnego 
kontaktu. Chociaż — ileż to razy uciekamy się do szkicu, diagramu wy- 
kresu w fachowej dyskusji lub chociażby określając drogę do określonego 
punktu w nieznanym mieście. Natomiast dysponując swobodą wyboru 
środków przekazywania informacji od systemu sterowania do obsługujących 
go ludzi możemy wybrać rozwiązanie oparte na graficznej prezentacji infor- 
macji — szczególnie, że istnieje obecnie bardzo wiele metod i środków tech- 
nicznych służących do generacji rysunków i wielobarwnych obrazów przez 
komputery. Nie oznacza to bynajmniej rezygnacji z omawianego tu sygnału 
mowy, przeciwnie, syntezatory mowy są urządzeniami bardzo wygodnymi 
w użyciu i do wielu zastosowań wprost niezastąpionymi (na przykład w za- 
daniach wymagających przesłania odpowiedzi systemu z wykorzystaniem 
typowej sieci telefonicznej). Jednak ich względne znaczenie — w stosunku 
do systemu rozpoznawania mowy, pozwalającego wprowadzać sygnał 
wprost do komputera — jest wyraźnie mniejsze. Zresztą — o czym była 
obszernie mowa w p. 2.3 — zadanie generacji mowy z wykorzystaniem 
sztucznych syntezatorów jest właściwie, od strony koncepcyjnej, całkowicie 
rozpracowane, pozostają jedynie prace nad doskonaleniem szczegółów tech- 
nicznych i poprawianiem jakości mowy syntetycznej. W dalszym ciągu tego 
rozdziału skoncentrujemy więc uwagę głównie na problemach automatycz- 
nego rozpoznawania mowy, jako ważniejszych dla systemów automatyki 
i trudniejszych do praktycznej realizacji. W dziedzinie głosowego „„wyjścia” 
z systemu sterowania poprzestaniemy na dotychczas przytoczonych uwa- 
gach, poszerzonych o stwierdzenie, że pewne konkrety na ten temat są za- 
warte w cytowanym już p. 2.3, a także w zamieszczonej na końcu książki 
literaturze nawiązującej do tego podrozdziału. 

W dość ogółnym zarysie przedstawiono już argumenty przemawiające za 
stosowaniem układów rozpoznawania mowy do wprowadzania informacji 
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przez sterującego pracą systemu człowieka do komputera, który pełni bez- 
pośrednie funkcje wykonawcze i regulacyjne. Wspomniano już, że postęp 
automatyzacji i robotyzacji nie wyeliminował konieczności udziału człowie- 
ka w procesach podlegających sterowaniu, zmienił natomiast zakres i cha- 
rakter jego działań. Uwolniony od czynności bezpośredniego nadzoru i ste- 
rowania rozważanego procesu, operator musi wymieniać z nim informacje 
i polecenia, stawiając mu w trybie dialogowym zadania, odbierając od niego 
zbiorcze raporty i oceniając realizację wymaganych czynności. Dialog po- 
między człowiekiem i maszyną stał się faktem, a jakość środków, jakie po- 
zostawi się do dyspozycji człowiekowi, może decydować o niezawodności 
i jakości wykonania zadań przez cały system, obejmujący zarówno maszynę, 
jak i współdziałających z nią ludzi, Warto dodać, że dotychczas włożony 
wysiłek w doskonalenie maszynowego składnika całego „hybrydowego” 
systemu przyniósł w wielu zastosowaniach ten rezultat, że osiągnięte zostały 
parametry jakościowe i niezawodnościowe daleko wykraczające poza war- 
tości analogicznych parametrów określanych dla ludzi. Jedyną drogą dal- 
szego postępu jest stworzenie człowiekowi optymalnych warunków pracy, 
tak aby mógł jak najlepiej wykorzystywać swaje możliwości. W tej sytuacji 
sterowanie głosowe, ze swoimi zaletami, takimi jak: 

— szybkość działania (wypowiedź daje się sformułować sprawniej niż 
jakąkolwiek manipulację), 

— brak związania operatora z jakimkolwiek pulpitem, zestawem manipu- 
latorów, klawiaturą itp., 

— możliwość sprawnego działania w ciemności, w warunkach przeciążenia, 
stresu fizycznego czy psychicznego, 

— naturalność i wygoda sterowania, uwalniające od konieczności długo- 
trwałego treningu i przyuczania personelu, 

może stanowić sensowną propozycję w zakresie metod komunikacji czło- 
wieka z maszyną. Wyniki stosowania sterowania za pomocą mowy są trud- 
ne do wyrażenia w kategoriach ekonomicznych i koncentrują się w sferze 
zwiększenia efektywności działania. Ostateczny efekt może jednak mieć 
wymiar ekonomiczny, gdyż sterowanie za pomocą mowy może oznaczać 
lepsze działanie zautomatyzowanego obiektu i mniejszą uciążliwość pracy 
dła personelu. 


Możliwości automatycznego rozpoznawania mowy 


Z uwag zawartych w poprzednim podrozdziale wynikała celowość prac 
zmierzających do skonstruowania systemu automatycznego rozpoznawania 
mowy. Ten podrozdział ma z kolei za zadanie pokazanie, że zadanie to jest 
wykonalne, chociaż w ogólnym sformułowaniu na obecnym etapie jeszcze 
bardzo trudne i -—- na razie — nie rozwiązane dla żadnego z rzeczywistych 
języków. Dokonamy tego dwuetapowo: na początku wymienimy operacje 
i procesy, które składają się na proces rozpoznawania mowy, a następnie 
dokładniej je omówimy. 

Podstawową operacją, poprzedzającą jakiekolwiek próby rozpoznania, jest 
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wprowadzenie sygnału mowy do pamięci komputera. Operacja ta bynajmniej 
nie należy do prostych z uwagi na dużą objętość informacyjną sygnału dys- 
kutowaną w p. 4.6. Trzeba wybrać wewnętrzną postać reprezentacji syg- 
nału mowy w komputerze, a także określić metody jej wprowadzania, roz- 
mieszczania w pamięci, operowania tą nietypową z komputerowego punktu 
widzenia informacją i dziesiątki innych szczegółów. 

Po wprowadzeniu informacji do komputera następuje etap określenia jej 
parametrów przydatnych do rozpoznawania, to znaczy takich, które redu- 
kując w zasadniczym stopniu objętość informacyjną sygnału wydobywają 
te jego cechy, które są przydatne z punktu widzenia procesu rozpoznawania. 
Proces ten bywa w większym albo mniejszym stopniu spleciony z uprzednio 
omówionym, gdyż w celu zaoszczędzenia pamięci urządzenia rozpoznają- 
cego pewne cechy wydobywa się przed wprowadzeniem sygnału do maszyny, 
w innych zaś przypadkach, dysponując maszyną o odpowiednio pojemnej 
pamięci i dużej szybkości działania, można proces wydobywania parametrów 
pozostawić do realizacji na drodze czysto cyfrowej, co zawsze jest łatwiejsze, 
a niekiedy bywa także znacznie bardziej efektywne. 

Dysponując wybranym parametrycznym opisem rozpoznawanego sygnału 
trzeba dokonać jego segmentacji, to znaczy podzielić go na odcinki, podle- 
gające rozpoznawaniu. Problem segmentacji może być w ogólnym przypad- 
ku bardzo złożony, gdyż sygnał mowy ma charakter ciągły i jedyne wyraźne 
granice występują (a i to nie zawsze) pomiędzy wyrazami. Z punktu widzenia 
segmentacji najwygodniej jest rozpoznawać całe wyrazy, co jednak nie jest 
optymalnym rozwiązaniem ze względu na inne kryteria. W szczególności 
liczba podlegających rozpoznawaniu wyrazów musi być bardzo duża — 
chyba że zdecydujemy się na budowę systemu funkcjonującego z ograni- 
czonym słownikiem dopuszczalnych wyrazów. Ponadto, co jest oczywiste, 
rozpoznanie wyrazu jest na ogół trudniejsze niż rozpoznanie fonemu — 
niezależnie od tego, jaką metodą będziemy dokonywać samego rozpozna- 
wania. Z tej argumentacji wynika, że celowe jest dokonanie segmentacji 
sygnału mowy na fonemy i rozpoznawanie fonemów. Jest ich niewiele, 
a ponieważ są stosunkowo proste i fonetycznie jednorodne —— rozpoznawa- 
nie większości z nich (z wyjątkiem spółgłosek płynnych lub nosowych) jest 
względnie łatwe. Niestety segmentacja ciągłej mowy na fonemy jest bardzo 
trudna. 

Można oczywiście podejść do tego zagadnienia jeszcze w inny sposób. 
Istnieją metody tzw. analizy skupień, pozwalające ustalić sposób podziału 
złożonego zestawu danych zgodnie z ich naturalną tendencją do grupowania 
się. Próba zastosowania tych skupień do grupowania elementów mowy dos- 
tarcza segmentów przydatnych do rozpoznawania i dodatkowo łatwych do 
wydzielenia, bo wynikających z naturalnych tendencji opisujących samą 
strukturę danych. Być może, że właśnie takie segmenty okażą się najbardziej 
przydatne przy rozpoznawaniu. Jest to jednak kwestia nadal otwarta, warta 
dalszych badań. Zagadnienie to będzie dalej dokładniej omówione. 
Kolejnym etapem po wydzieleniu segmentów jest ich rozpoznawanie. 
W literaturze opisano bardzo wiele metod rozpoznawania, przy czym sto- 
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sunkowo słabo zbadane są ich wzajemne relacje i mało znana jest ich względ- 
na przydatność w zadaniu rozpoznawania mowy. Jedyne informacje, na 
jakie można liczyć, dotyczą wykorzystywania tychże metod w innych, niż 
rozpoznawanie mowy, zagadnieniach (rozpoznawanie obrazów, identyfi- 
kacja złóż surowców mineralnych, prognozowanie pogody, automatyzacja 
diagnostyki technicznej i medycznej itp.). Opierając się na tych danych 
możliwe jest wskazanie kilku szczególnie obiecujących metod rozpoznawa- 
nia i skupienie badań nad rozpoznawaniem mowy. na — początkowo przy- 
najmniej — badaniu przydatności tych znanych, wypróbowanych metod. 
Kolejny etap polega na „złożeniu” elementarnych (być może błędnych 
w pewnej części) rozpoznań w jedno rozpoznanie globalne. Mówiąc prościej, 
zachodzi potrzeba przetworzenia sekwencji rozpoznanych segmentów 
(powiedzmy — fonemów) na rozpoznanie całej wypowiedzi. Jednym z głów- 
nych problemów, jaki się przy tym pojawia, jest problem normalizacji czasu. 
Nawet różne wypowiedzi tej samej kwestii przez tego samego człowieka 
różnią się znacznie pomiędzy sobą czasem trwania poszczególnych segmen- 
tów. Jeszcze większe i bardziej znaczące różnice powstają przy porównywa- 
niu wypowiedzi różnych ludzi. Podkreślić należy przy tym, że zmiana do- 
tyczy całej skali czasu, to znaczy w dwu różnych wypowiedziach tej samej 
kwestii mogą pojawiać się w sposób trudny do przewidzenia zarówno seg- 
menty krótsze, jak i segmenty trwające dłużej, przy czym łączny czas trwa- 
nia wypowiedzi tylko w niewielkim stopniu może tu stanowić wskazówkę. 
Zdarza się bowiem, że w wypowiedzi krótszej niektóre segmenty mogą mimo 
to trwać dłużej niż w wypowiedzi dłuższej, zatem deformacja skali czasowej 
ma wybitnie nieliniowy charakter. Ilustrując to trywialnym przykładem 
można przedstawić następujące ciągi rozpoznanych elementów, wykryte 
przez automatyczną procedurę rozpoznającą w kilkunastu wypowiedziach 
wyrazu sowa 


Sssso00wwaaa (wzorcowe nagranie) 

csooooffaa (obecność szumów) 
Ssso0aa00wwaeaa (niewyraźna wymowa) 
zzzsuoooaaa (głos kobiecy użyty w badaniach) 


Warto zauważyć, że zniekształcenia wypowiedzi na tym etapie dotyczą za- 
równo czasu trwania poszczególnych segmentów, jak i mogą przejawiać się 
przekłamanymi rozpoznaniami oraz „„gubieniem” niektórych segmentów. 
Oczywiście problemu tego nie należy wyolbrzymiać. Przytoczone wyżej 
przykłady zostały celowo, tendencyjnie dobrane w ten sposób, aby ilustro- 
wały możliwe zniekształcenia, W istocie najczęstszym problemem są zmiany 
skali czasu, a więc pojawianie się niezliczonej liczby wariantów w rodzaju 
(dla przyjętego przykładu): 

$S55500000wwwwadaaaaa 

Ss000000wwaaaaaaaa 


Usuwanie skutków przytoczonych zjawisk możliwe jest na dwu drogach. 
Z jednej strony można wykorzystywać słownik wzorców, na którego pod- 
stawie wyszukuje się najbliższy, zgodnie z określonym kryterium, wzorzec 
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wyrazu, odpowiadający (a przynajmniej niesprzeczny z nim) przyjętemu 
łańcuchowi elementarnych rozpoznań. Z drugiej strony można wyko- 
rzystywać reguły kontekstowe do eliminacji błędów i odtworzenia przy- 
puszczalnej prawidłowej postaci rozpoznawanego wyrazu. Pierwsze po- 
dejście ma swoje zalety w sytuacji, kiedy rozpoznawaniu podlega ograni- 
czony zbiór wzorców. Drugie stosowane jest wtedy, kiedy dąży się do roz- 
poznawania możliwie nieograniczonego zbioru wyrazów (na przykład przy 
próbach konstrukcji „automatycznej sekretarki” — maszyny piszącej pod 
dyktando). Zaletą pierwszego podejścia bazującego na wzorcach jest istnie- 
nie sprawnych i szybko działających algorytmów rozpoznawania, opartych 
najczęściej na koncepcji programowania dynamicznego, które mogą — 
przynajmniej w teorii — pracować w czasie rzeczywistym. Zaletą drugiego 
podejścia jest jego ogólność, okupiona niestety na ogół bardzo dużymi 
wymaganiami odnośnie do mocy obliczeniowej (pojemności pamięci i szyb- 
kości przetwarzania) systemu realizującego wspomniane algorytmy, 

Po rozpoznaniu całych wypowiedzi następuje etap ich dalszej analizy, naj- 
pierw pod względem strukturalnym (analiza syntaktyczna, rozbiór grama- 
tyczny), a następnie pod względem semantycznym. Zagadnienia związane 
z tymi etapami procesu analizy będą potraktowane skrótowo, należą bowiem 
raczej do obszernej i rozwijającej się dziedziny przetwarzania języka na- 
turalnego za pomocą komputerów niż do zagadnień analizy i rozpoznawania 
mowy jako takiej. Z chwilą bowiem kiedy w wyniku etapu identyfikacji wy- 
powiedzi otrzymamy rozpoznanie badanej wypowiedzi w postaci — przyj- 
mijmy dla przykładu — ciągu znaków odpowiadających poszczególnym 
fonemom, zagadnienie staje się identyczne z problemami analizy języka 
naturalnego, badanymi intensywnie w ramach tak zwanej „sztucznej inteli- 
gencji”” oraz programem szumnie zapowiadanej piątej generacji kompute- 
rów. Problemy te polegają — w uproszczeniu to przedstawiając —— na two- 
rzeniu reguł wydobywania sensu ze swobodnie formułowanych przez czło- 
wieka w języku naturalnym poleceń i informacji, przy czym ze względu na 
omówione już trudności związane z automatycznym rozpoznawaniem mo- 
wy — badania te są z reguły prowadzone na podstawie wypowiedzi wprowa- 
dzanych do komputera z użyciem technik znakowych (klawiatur alfanume- 
rycznych, kart i taśm perforowanych, nośników magnetycznych). Zadaniem 
tej książki nie jest streszczanie czy omawianie bardzo licznych i istotnych 
osiągnięć, jakie w dziedzinie analizy języka naturalnego odnotowano już 
w informatyce, chodzi raczej o to, aby zasygnalizować rysującą się tutaj więź 
prac prowadzonych nad sygnałem mowy z badaniami sztucznej inteligencji, 
wskazać na wzajemne uwarunkowania postępu w obydwu dziedzinach, 
a także o to, by z naciskiem podkreślić, że na rozpoznaniu fonemów, sylab 
czy nawet całych wyrazów problem rozpoznawania mowy bynajmniej się nie 
kończy, Urządzenie sygnalizujące na ekranie lub wypisujące na drukarce 
tekst wypowiedzianej i rozpoznanej kwestii ma swoją samodzielną użytecz- 
ność — na przykład w systemach telekomunikacyjnych, gdzie takie rozpoz- 
nane segmenty mogą być oszczędnie przysyłane przez łącze i użyte do synte- 
zy sygnału mowy w urządzeniu odbiorczym, jednak główny cel, do którego 
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dążymy, jest znacznie dalszy i wyraźnie ambitniejszy. Nie chodzi o rozpoz- 
nanie wypowiedzi, lecz o jej automatyczne zrozumienie. Mówiąc krótko 
idzie o poprawne wykonanie nakazanej przez wypowiedzianą kwestię czyn- 
ności. W systemie sterowania, jako wspomożenie obsługującej obiekt ste- 
rowania automatyki, znajdzie zastosowanie jedynie taki system, który po- 
zwoli człowiekowi formułować wszystkie zapytania, polecenia i uwagi dla 
systemu nie tylko głosem, ale również przy zachowaniu pełnej swobody 
formułowania wypowiedzi w sensie doboru słów, użycia (byle poprawnego) 
dowolnych form gramatycznych i dokonania dowolnych (byle sensownych) 
przekształceń wypowiadanej komendy — z pełną gwarancją, że będzie ona 
właściwie zrozumiana, poprawnie zinterpretowana i bezbłędnie wykonana. 
Można się spierać, czy takie poprawne z operacyjnego punktu widzenia 
wykorzystanie treści wypowiedzi można uznać za równoważne jej zrozumie- 
niu, toczone są zażarte polemiki, których celem jest wykazanie „nonsensow- 
ności” twierdzeń o maszynowym rozumieniu czegokolwiek, atakowany 
jest termin „,sztuczna inteligencja” — przy czym wszystko to są właściwie 
spory o słowa. Nikt bowiem nie ma wątpliwości, że konstrukcja systemu 
zapewniającego możliwość poprawnego interpretowania wypowiedzi jest 
z praktycznego punktu widzenia bardzo potrzebna, a z technicznego punktu 
widzenia — całkowicie możliwa, chociaż może jeszcze nie dziś. Bez tego 
syntaktycznego i semantycznego uzupełnienia prace nad systemami auto- 
matycznego rozpoznawania mowy są oderwane od podstawowego prak- 
tycznego celu, a osiągane wyniki mogą być traktowane jak zwykłe kuglar- 
stwo. 

Podsumowując to ogólne wprowadzenie trzeba stwierdzić, że jako wniosek 
z przeprowadzonych rozważań można wskazać na wielopoziomową struk- 
turę problemu rozpoznawania mowy. Wyróżnić bowiem możemy: 

— poziom akustyczny, związany z wprowadzaniem sygnału do systemu 
rozpoznającego i jego (ewentualnym) wstępnym przetwarzaniem, 

— poziom parametryczny, związany z problemami wydzielenia parametrów 
sygnału i redukcją jego zapisu do operacyjnie wygodniejszej, a merytorycznie 
równoważnej formy opisu parametrycznego, 

— poziom strukturalny, związany z podziałem sygnału na podlegające 
rozpoznawaniu segmenty (wraz z problematyką wyboru tych fragmentów 
i ich optymalizacji), 

— poziom identyfikacyjny, związany z metodami automatycznego roz- 
poznawania wydzielonych fragmentów wypowiedzi oraz z zagadnieniami 
uczenia, które dla większości metod rozpoznawania są nieodłącznym ele- 
mentem poprzedzającym proces identyfikacji, 

— poziom leksykalny, odpowiedzialny za syntezę rozpoznanych elementów 
fonetycznych w całościowe elementy rozpoznania —— najczęściej wyrazy, 

— poziom syntaktyczny, odpowiedzialny za analizę gramatyczną wypo- 
wiedzi i zapisanie jej struktury w postaci przydatnej do dalszej analizy, 

— poziom semantyczny, związany z problemami identyfikacji treści wy- 
powiedzi i z wydobywaniem jej „sensu”. 

Ta wielopoziomowa struktura problemu powoduje podobnie wielopo- 
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5-1. Struktura 
problemu 
rozpoznawania m 
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po prawej stronie 


rysunku) i czynności 


konieczne do 
zrealizowania dla 


pełnego rozpoznania 


i „„zrozumienia”* 


ziomowo zorganizowaną, 'hierarchiczną strukturę systemów rozpozna- 
wania mowy. Wyróżnić w nich można na ogół (rys. 5-1) poszczególne 
podukłady, odpowiadające wyżej wymienionym poziomom, obrazującym 
strukturę problemu rozpoznawania mowy i jego składniki. Granice wymie- 
nionych podukładów bywają płynne, w konkretnych realizacjach niektóre 
wydzielone tu piętra hierarchiczne są pominięte, inne zaś mogą się złewać. 


p. Warstwy: 


semantyczna 
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Realizowane obecnie 


systemy obejmują 
najwyżej cztery 
pierwsze poziomy 
struktury 


Wprowadzanie 


Sygnał mowy 


akustyczna 


Nie ma to jednak zasadniczego znaczenia. Wydzielenie odpowiednich po- 
ziomów w problemie rozpoznawania i postulat hierarchicznej organizacji 
struktury układu rozpoznającego posłuży nam do uporządkowania dalszej 


dyskusji i do systematycznego przedstawienia metod i problemów wcho- 
dzących w skład całego zadania. 


Tak więc po ogólnym wprowadzeniu, którego celem było wskazanie na 
możliwości automatycznego rozpoznawania mowy, przystąpimy teraz do 
zapowiedzianej analizy szczegółowej, prezentując konkretnie, w jaki sposób 
można skonstruować system rozpoznawania mowy, jakie problemy są już 
znane i rozpracowane, a jakie zagadnienia stanowią teren dociekań nauko- 
wych i prób prototypowych. Kolejność prezentacji zagadnień zgodna będzie 
z kolejnością ich wprowadzania w dokonanym wyżej przeglądzie problema- 
tyki, chociaż z konieczności w pewnych przypadkach wyłamującach się 
z przyjętego schematu, także schemat opisu będzie modyfikowany. 
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5.3. 


Wprowadzanie sygnału mowy do systemu jej 
rozpoznawania 


Systemy rozpoznawania mowy można podzielić na cyfrowe, analogowe 
oraz hybrydowe, przy czym kryterium podziału tkwi w oczywisty sposób 
w naturze sygnału wewnątrz systemu. Sygnał wejściowy jest bowiem zawsze 
sygnałem analogowym, sygnał zaś wyjściowy (wynik rozpoznania) jest z na- 
tury swojej cyfrowy. W najprostszym przypadku sygnałem wyjściowym 
systemu rozpoznawania mowy jest łańcuch rozpoznanych elementów 
(a raczej ich kodów), w bardziej złożonych sytuacjach sygnał wyjściowy 
może mieć formę zbioru konkretnych sygnałów sterujących, w których wy- 
niku dochodzi do wykonania zawartego w wypowiedzi człowieka polecenia. 
W obu wymienionych skrajnych sytuacjach, a także we wszystkich możli- 
wych do wyobrażenia stanach pośrednich, sygnał wyjściowy z systemu jest 
wyborem jednej z wielu dyskretnych możliwości — a więc może i powinien 
być rozważany jako cyfrowy. Podział na systemy analogowe i cyfrowe jest 
więc dość umowny, w istocie bowiem każdy system rozpoznawania mowy 
jest hybrydowy, jednak dla konkretyzacji dalszych rozważań przyjmiemy, 
że interesować nas będą systemy, w których proces wprowadzania sygnału 
można jeszcze zaliczyć do procesów analogowych, wszystkie dalsze nato- 
miast procesy są czysto cyfrowe. Odpowiada to aktualnym tendencjom 
obserwowanym w laboratoriach zajmujących się analizą i rozpoznawaniem 
mowy oraz jest to racjonalne z punktu widzenia konstrukcji urządzeń wy- 
korzystujących rozpoznawanie mowy w praktyce. 

Przyjmiemy zatem, że w dalszych podrozdziałach zajmować się będziemy 
operacjami realizowanymi na drodze tylko cyfrowej, a także zakładamy, że 
analizę będziemy prowadzić na poziomie struktur algorytmów odpowied- 
nich procesów — rozumiejąc, że jeśli nawet wykonawcą tych operacji nie 
będzie uniwersalna maszyna cyfrowa, to najtańsza realizacja sprzętowa 
i tak musi opierać się na zastosowaniu mikroprocesora. Wobec tego bu- 
dowa specjalizowanego systemu w praktyce oprze się na oprogramowaniu, 
tyle że zrealizowanym na poziomie języka wewnętrznego mikroprocesora 
i zapisanym do pamięci stałej systemu. W tym podrozdziale jednak musimy 
od tego wygodnego punktu widzenia odstąpić i rozważać sygnał mowy 
w postaci analogowej — takiej jaka jest dostępna na wyjściu przetwornika 
elektroakustycznego. 

Metodami analogowymi musi więc być dokonywane wstępne przetwarzanie 
sygnału mowy, przynajmniej do etapu filtracji dolnoprzepustowej, odcina- 
jącej wszystkie składowe sygnału powyżej częstotliwości Nyquista w celu 
uniknięcia nakładania się widm (rys. 5-2). Po tym filtrze może znajdować się 
już układ przetwarzania analogowo-cyfrowego. Pełny sygnał, bez żadnych 
zmian i korekt, może być przesłany do maszyny cyfrowej, dokonującej 
wszystkich dalszych niezbędnych transformacji (por. p. 4.1). Taka droga 
postępowania charakterystyczna jest dla systemów, w których mamy do 
dyspozycji dużą moc obliczeniową i możemy ją bez ograniczeń angażować 
dla potrzeb systemu rozpoznawania mowy, a także w tyeh przypadkach, 
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kiedy opracowywany system ma charakter eksperymentalny, badawczy. 
Łatwiej bowiem poszukiwać właściwej drogi przetwarzania sygnału i do- 
bierać różne rozwiązania strukturalne procesu analizy i rozpoznawanie, gdy 
wszystkie te etapy mają charakter odpowiednich modułów programowych 
i mogą być zmieniane przez dopisanie lub usunięcie kilku instrukcji. 


Mowa 
sm |--[ TE 


5-2. Najprostszy system wprowadzania mowy do maszyny cyfrowej. Prostota systemu okupiona jest 
niestety bardzo dużym zajęciem pamięci komputera przez wprowadzony, nie przetworzony sygnał. Na 
rysunku tym, podobnie jak na kilku dalszych, użyto skrótowego określenia mowa do oznaczenia 
wejścia, przez które wprowadzany jest sygnał mowy. Zakłada się przy tym, że wejście takie musi być 
wyposażone w przetwornik elektroakustyczny, wzmacniacz, ewentualnie także w układy formujące 


sygnał 


Znacznie mniej swobody ma eksperymentator w przypadku kiedy proces 
przetwarzania zdeterminowany jest sprzętowo lub kiedy poprawka w algo- 
rytmie wymaga przebudowy licznych układów elektronicznych czy konstruk- 
cji nowych elementów. W takich okolicznościach obok bariery technicznej, 
utrudniającej prowadzenie badań, pojawia się bariera psychologiczna. 
Badacz poszukuje rozwiązań stojących przed nim problemów nie w obsza- 
rze wszystkich możliwych form i metod przekształcania sygnału, lecz w ob- 
szarze wytyczonym przez możliwości wykorzystywanej techniki i dopusz- 
czalne modyfikacje używanej aparatury. Ograniczenie, o którym mowa, jest 
tym groźniejsze, że funkcjonuje najczęściej w sposób dla samego badacza 
nieuświadomiony. Pozostawiając jednak na uboczu te metodołogiczne dy- 
gresje warto uświadomić sobie, że schemat przetwarzania, przedstawiony 
na rys. 5-2, dlatego jest mało przydatny, że stawia przed częścią cyfrową sys- 
temu bardzo wysokie, trudne do zaspokojenia w warunkach polskich, wy- 
magania. Istota problemu tkwi w dyskutowanej w p. 4.6 ogromnej objętości 
informacyjnej sygnału mowy. Istotnie, jeśli z transmisją sygnału mowy 
wiąże się strumień informacji o objętości setek tysięcy bitów na sekundę, to 
analiza odcinków mowy obejmujących całe wypowiedzi — nawet proste 
polecenia lub komendy dla systemu automatyki — wymaga komputerów 
o megabajtowych pamięciach, a szybkość wykonywania operacji, wymagana 
przy obliczaniu, przekracza wszelkie rozsądne granice, jeśli wymaga się 
pracy systemu w czasie rzeczywistym. 

Zatem nie na zasadzie wyboru optymalnego wariantu, lecz przyciśnięci do 
muru dysproporcją potrzeb i możliwości, badacze sygnału mowy i konstruk- 
torzy urządzeń automatycznego rozpoznawania tego sygnału decydują się 
na rozbudowę analogowej części aparatury i na dokonywanie procesów 
wstępnego przetwarzania sygnału jeszcze przed jego wprowadzeniem do 
komputera. Przetwarzanie, o którym mowa, może kierować się w stronę 
różnych parametrycznych i bardzo oszczędnych reprezentacji sygnału mo- 
wy, względnie może ograniczać się do przekształcenia sygnału do postaci 
widma dynamicznego (za pomocą zestawu filtrów, demodulatorów, ukła- 
dów uśredniających itd., zgodnie z zasadami podanymi w p. 4.2). To drugie 
rozwiązanie bywa zwykle preferowane, ponieważ objętość informacyjna 
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widma dynamicznego sygnału mowy jest na tyle mniejsza od objętości ory- 
ginalnego sygnału, że dokonane ograniczenie wystarcza do rozsądnego 
pomieszczenia wymaganych odcinków sygnału mowy w pamięciach kompu- 
terowych o łatwo dostępnych pojemnościach. Równocześnie przekształcenie 
sygnału do postaci jego widma dynamicznego jest — nawet metodami ana- 
logowymi — łatwe do przeprowadzenia. Co więcej stosunkowo rozpowszech- 
niona i dostępna jest profesjonalna, wysokiej jakości aparatura, umożliwia- 
jąca dokonywanie takiej transformacji. 

Tak więc z jednej strony prostota operacji zmierzających do znalezienia 
wymaganej formy sygnału, z drugiej natomiast zadowalający wynik w pos- 
taci wystarczającego ograniczenia objętości sygnału preferują łącznie użycie 
krótkookresowej analizy widmowej do badania charakterystyk sygnału 
i do wprowadzania ich do maszyny cyfrowej. Oczywiście podejmując de- 
cyzję o zastosowaniu zestawu filtrów pasmowych do wydzielenia charakte- 
rystyk sygnału mowy, przydatnych do jego wprowadzania do systemu roz- 
poznającego, musimy dodatkowo określić dużą liczbę szczegółowych para- 
metrów tego procesu wstępnego rozpoznawania i przetwarzania, którego 
własności mogą w decydujący sposób wpływać na jakość procesu rozpozna- 
wania w całości. Trzeba bowiem mieć świadomość, że dokonując wstępnego 
przetwarzania sygnału mowy przed jego wprowadzeniem do systemu roz- 
poznającego, bezpowrotnie tracimy pewną część informacji. Zresztą to 
właśnie jest celem wstępnego przetwarzania. Problem jedynie w tym, żeby 
tracona informacja była — z punktu widzenia celu rozpoznawania — bez- 
wartościowa, natomiast aby tracić jak najmniej informacji użytecznej. 
Postulat taki łatwiej sformułować, niż zapewnić jego realizację. 
Przyjmując, co wydaje się wysoce prawdopodobne, że niezbędna informacja 
mieści się w charakterystyce amplitudowo-częstotliwościowej sygnału, oraz 
zakładając, że do określenia charakterystyki posłużymy się zestawem filtrów 
analogowych, pozostaje nadal wiele pytań szczegółowych, na które należy 
udzielić odpowiedzi, zanim dokończy się projektu systemu wprowadzania 
mowy do maszyny cyfrowej. Są to między innymi następujące zagadnienia: 
— ile pasm częstotliwości zamierzamy wyróżnić, 

— czy mają być one rozłożone liniowo, czy w sposób logarytmiczny (stała 
szerokość pasma, czy stały stosunek szerokości do częstotliwości środkowej 


pasma), 
— jak szerokie zastosować okno czasowe i jakim rodzajem okna się po- 


służyć, 

— jaką przyjąć metodę demodulacji sygnału (prostowanie dwupołówkowe, 
podnoszenie do kwadratu, detekcja impulsowa itp.), 

— jak dokonywać uśredniania sygnału (liniowo, wykładniczo czy według 
innej funkcji wagowej) oraz jaki ma być czas uśredniania sygnału, 

— jak często próbkować sygnały wyjściowe używanych filtrów, 

— jaką dokładność amplitudową zapewnić przy przetwarzaniu sygnałów 
wyjściowych z filtrów (ile przyjąć poziomów dyskryminacji amplitudy i jak 
je rozmieścić — równomiernie, czy według zasady gęściejszego obsadzenia 
poziomów o niższych amplitudach), 
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-—— jak rozmieszczać informację o sygnale mowy w pamięci komputera 
(czy przeznaczać jedną komórkę lub bajt na pojedynczy odczyt amplitudy 
sygnału w pojedynczym pasmie częstotliwości i w jednym ustalonym mo- 
mencie czasu, czy też „upakowywać” informację na pojedynczych bitach 
słowa maszynowego), 

-—— jakich kodów użyć do rejestracji odczytów z poszczególnych filtrów 
(naturalnych binarnych, Graya, z zabezpieczeniem przed przekłamaniami 
czy bez nich), 

— ile bitów przeznaczyć na zapamiętanie pojedynczego kwantu informacji. 
Przytoczona lista jest bez wątpienia niekompletna. Pominięto w niej bardzo 
wiele zagadnień szczegółowych, ściśle technicznych, na przykład: wybór 
techniki realizacji filtrów (bierne czy aktywne, rezonansowe czy drabinkowe, 
LC czy RC), metod uśredniania (analogowe czy cyfrowe) czy konkretnego 
typu używanego konwertera (bezpośredni, wagowy, całkujący, kombino- 
wany) oraz sposobu jego zastosowania (czy ma być jeden konwerter dla 
wszystkich filtrów i układ musi wzbogacić się o komutator kanałów analo- 
gowych czy też użyty będzie w każdym torze oddzielny konwerter). Przyto- 
czona lista zagadnień ma jedynie sygnalizować, jak wiele problemów wiąże 
się z prostą pozornie i nie budzącą wątpliwości koncepcją dokonywania 
wstępnego przetwarzania sygnału mowy przed jego wprowadzeniem do 
komputera — także wówczas, kiedy już się podejmie kluczową dla dalszych 
działań decyzję, że typ przyjętego przetwarzania będzie wynikał z zastoso- 
wania krótkookresowej transformaty Fouriera. Na wszystkie przytoczone 
tu i pominięte pytania trzeba konkretnie i szczegółowo odpowiedzieć przy 
budowie układu wstępnego przetwarzania sygnału mowy. Przyjęte odpo- 
wiedzi — determinujące strukturę i działanie zbudowanego systemu — 
wynikają z głębokiej analizy własności sygnału, podlegającego przetwarza- 
niu, z rozważenia pozostających do dyspozycji możliwości sprzętowych 
(zarówno w zakresie używanego komputera, jak i w zakresie aparatury 
analogowej, którą po odpowiedniej adaptacji zamierzamy wykorzystać 
w torze wstępnego przetwarzania mowy), a także z arbitralnych rozstrzyg- 
nięć, wynikających z osobistych preferencji badacza prowadzącego próby 
rozpoznawania mowy. Na ten ostatni składnik każdej podejmowanej de- 
cyzji zwraca się na ogół zbyt mało uwagi, tymczasem marginesy pozosta- 
wione w tym miejscu przez ścisłą wiedzę są dość szerokie i wpływ arbitral- 
nych rozstrzygnięć może być w sumie znaczący. Rezultatem takiego stanu 
rzeczy są trudności wynikające przy próbach porównywania wyników uzys- 
kiwanych przez różne zespoły. 

Liczba wyróżnianych pasm częstotliwości jest najważniejszym i w najwięk- 
szym stopniu arbitralnie wybieranym parametrem. Wydaje się, że propono- 
wana niekiedy liczba 5 wyróżnionych pasm częstotliwości (biorąca się z ro- 
zumowania, że jest to najmniejsza liczba pozwalająca wykrywać obecność 
lub brak trzech pierwszych formantów) jest niewystarczająca. Również zbyt 
mała wydaje się liczba kilkunastu wyróżnionych pasm częstotliwości pro- 
ponowana przez niektórych autorów na podstawie doświadczeń z wokode- 
rami pasmowymi (por. p. 6.2). Doświadczenie wykazuje, że dla systemu 
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rozpoznawania mowy niezbędna jest rozdzielczość odpowiadająca kilku- 
dziesięciu — blisko stu — wydzielonym pasmom częstotliwości. Przy więk- 
szej liczbie pasm zasadniczy cel stosowania analizy, mianowicie ograniczenie 
objętości informacyjnej sygnału, staje się problematyczny. Przy mniejszej 
(wyraźnie mniejszej) liczbie pasm mowa zachowuje informacje wystarcza- 
jące do jej zidentyfikowania przez człowieka, natomiast ilość informacji 
okazuje się zbyt mała dla algorytmów dokonujących rozpoznawania na 
drodze automatycznej. Powtarza się tu omawiana wcześniej sytuacja (por. 
p. 4.1), w której pewien kwant informacji (poprzednio była to częstość 
przejść przez zero) jest dostateczny dla rozpoznania sygnału mowy przez 
najdoskonalszy system rozpoznający, a mianowicie przez mózg człowieka, 
natomiast konstruowane algorytmy i urządzenia rozpoznające nie potrafią 
tej informacji równie doskonale spożytkować. 

Przyjmując zatem, że wymagane jest kilkadziesiąt pasm częstotliwości, 
w których sygnał będzie rozważany i analizowany, możemy rozpatrywać 
sposób rozłożenia tych pasm wzdłuż osi częstotliwości. Zasadniczy problem 
dotyczy wyboru zasady: pasma o stałej, czy o zmiennej szerokości, a w na- 
stępstwie podjęcia decyzji w tej kwestii wybór jednej z możliwych skal 
częstotliwości — liniowej lub logarytmicznej. Doświadczenia z wokoderami 
(por. p. 6.2) oraz tradycja obowiązująca w badaniach akustycznych prze- 
mawiają za wyborem skali logarytmicznej i stałej procentowej szerokości 
pasma. Wydaje się jednak, że są poważne argumenty przemawiające przeciw 
takiemu podejściu. Sygnał mowy po wprowadzeniu do maszyny poddawany 
jest dalszemu przetwarzaniu, stosuje się do niego kolejne algorytmy i do- 
konuje jego parametrycznego opisu, wobec tego liniowa skala częstotliwości 
okazuje się z reguły wygodniejsza w użyciu. Zresztą przy pokrywaniu 
przedziału (typowo przyjmowanego) od stu do kilkunastu tysięcy herców 
za pomocą blisko stu filtrów — większość argumentów przemawiających 
typowo za stosowaniem skali logarytmicznej staje się nieaktualna. Użycie 
liniowej skali częstotliwości ma tę dodatkową zaletę, że w przypadku 
uzyskania dostępu do sprzętu obliczeniowego o większej mocy, po dokona- 
niu analizy widmowej algorytmem FFT otrzyma się widmo o liniowej skali 
częstotliwości (por. p. 4.2). W takim przypadku stosowanie w analogowym 
systemie wstępnego przetwarzania filtrów o skali liniowej gwarantuje możli- 
wość natychmiastowego wykorzystania programu FFT do wszystkich opra- 
cowanych wcześniej algorytmów przetwarzania sygnału, wydobywania para- 
metrów, rozpoznawania itd. Użycie na wstępie filtrów o skali logarytmicz- 
nej prowadzi do konieczności przerabiania całego oprogramowania w mo- 
mencie pojawienia się możliwości pełnej „cyfryzacji” systemu. 

Sprawa okna czasowego wiąże się z tym, jakie fragmenty mowy bardziej nas 
interesują. Do analizy głosek szumowych, których charakter jest w dużej 
mierze przypadkowy, optymalne jest stosowanie okna o dużej szerokości, 
zapewniającego dłuższe uśrednianie widma i dającego stabilniejszy obraz 
widma. Natomiast głoski o szybko zmieniającym się widmie — na przykład 
plozyjne -— wymagają okna wąskiego, aby eliminować przy obliczaniu 
widma wpływ fragmentów poprzedzających i następujących po interesują- 
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cym tranzjencie, otrzymując w rezultacie wierny i nie zniekształcony obraz 
procesu przejściowego, którego kształt i parametry decydują zwykle o sku- 
tecznym rozpoznaniu głoski. Wybór konkretnej wartości długości okna 
jest więc kompromisem i jak każdy wybór kompromisowy — ma charakter 
arbitralny. Literatura niekiedy zaleca okno o szerokości 20 ms, wydaje się 
to jednak wartością za dużą. Celowe wydaje się rozważenie okna o długości 
około 10 ms, chociaż do konkretnych badań, koncentrujących uwagę bada- 
cza na przebiegach przejściowych, nawet takie okno może się okazać za 
długie. Co do kształtu okna czasowego, to w całej rozciągłości znajdują tu 
zastosowanie uwagi przytoczone w p. 4.3. Nie powtarzając przytoczonej 
tam szczegółowej dyskusji zagadnienia warto wskazać na okno Gaussa 
jako najkorzystniejsze w sensie braku listków bocznych w charakterystyce 
częstotliwościowej, ale praktyczna realizacja krzywej Gaussa może napoty- 
kać — przy stosowaniu metod czysto analogowych — poważne trudności. 
Z tego powodu zamiast okna Gaussa bywają stosowane inne typy wymie- 
nionych w p. 4.3 okien czasowych — szczególnie okno Hamminga. 

W odniesieniu do metod demodulacji sygnału z filtrów często stosowane 
jest prostowanie dwupołówkowe zamiast poprawniejszego metodologicznie, 
ale bardzo uciążliwego w realizacji, podnoszenia do kwadratu. Wydaje się, 
że w zadaniu rozpoznawania mowy, gdzie nie zależy nam na dokładnym 
pomiarze mocy sygnału w poszczególnych pasmach (do takiego pomiaru 
podnoszenie do kwadratu amplitud sygnału jest absolutnie konieczne), lecz 
na przekazaniu do maszyny informacji o kształcie obwiedni widma i jego 
czasowych zmianach, postępowanie uproszczone, z zastosowaniem prosto- 


wnika, jest całkowicie wystarczające. 
Podobnie mało istotna jest przyjęta reguła uśredniania sygnału. Ze względu 


na prostą realizację i korzystne własności używania jest zwykle reguła 
uśredniania z „ważeniem wykładniczym” realizowana za pomocą prostego 
układu RC, Nie oznacza to jednak, że dysponując odpowiednimi możli- 
wościami nie powinno się dążyć do wykorzystania i zbadania właściwości 
innych rodzajów uśredniania. Ważny jest natomiast bez wątpienia wybrany 
czas uśredniania. Obowiązują tu podobne kryteria jak przy wyborze dłu- 
gości okna czasowego. Typowo dla sygnału mowy przyjęło się zakładać czas 
uśredniania sygnału około 10 ms, co — jak było wyżej pokazane -— sta- 
nowi kompromis między sprzecznymi wymogami wynikającymi z koniecz- 
ności analizy segmentów mowy o różnych właściwościach. 

Problem wyboru częstości próbkowania sygnałów wyjściowych z filtrów 
jest bardzo ważny. Z jednej strony bowiem częstość próbkowania jest dru- 
gim (po liczbie pasm częstotliwości) podstawowym parametrem wyznacza- 
jącym objętość wynikowego zbioru danych wprowadzanych do maszyny 
cyfrowej dla ustalonego odcinka sygnału mowy. Z tego punktu widzenia 
korzystne jest stosowanie częstości próbkowania najmniejszej, jak się tylko 
da. Z drugiej, wiązani jesteśmy częstotliwościami zmian obwiedni sygnałów 
na wyjściach filtrów, która (por. p. 4.1) musi być mniejsza od połowy przy- 
jętej częstości próbkowania. Naturalnie stosując filtrację dolnoprzepustową 
sygnału wyjściowego z demodulatorów zamontowanych na wyjściach po- 
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szczególnych filtrów można bez trudu uzyskać dowolnie małą częstotliwość 
graniczną — gubiąc jednak bezpowrotnie informacje o tych partiach syg- 
nału mowy, w których widmo zmienia się w sposób szybki. Ponieważ szyb- 
kie zmiany widma sygnału odpowiadają szybkim ruchom artykulacyjnym 
narządów mowy, przeto na ogół niosą one znacznie więcej informacji o wy- 
powiadanych wyrazach niż długotrwałe nawet okresy, w których widmo się 
nie zmienia, gdyż narządy mowy pozostają nieruchome i trwa artykulacja 
stanów quasi-ustalonych samogłosek lub spółgłosek szumowych, Wynika z 
z tego, że przy rozpoznawaniu mowy te właśnie szybkie zmiany widma syg- 
nału będą bardzo przydatne, a ich utrata w momencie wprowadzania sygna- 
łu mowy do komputera nie da się później w żaden sposób zrekompensować. 
Częstotliwość próbkowania widma musi być więc największa, jaka tylko 
jest wymagana do przeniesienia wszystkich rejestrowanych zmian w widmie. 
Ponieważ uprzednio przyjęto okno czasowe około 10 msi tej samej długości 
czas uśredniania rekomendowano na wyjściach filtrów, przeto sugeruje się, 
że częstość próbkowania sygnałów wyjściowych z filirów powinna być 
około 100 Hz. Oznacza to, że maksymalna częstość zmian widma, która 
będzie wiernie oddana we wprowadzonym do komputera sygnale, wynosić 
będzie około 50 Hz. Jest to zakres wystarczający, gdyż badania nad wokode- 
rami pasmowymi wykazały, że graniczne częstotliwości sygnałów w pasmach 
częstotliwości (zdemodulowanych) wynoszą od 20 do 35 Hz. Trzeba jed- 
nak bardzo starannie odfiltrować częstotliwości większe od przyjętej często- 
tliwości granicznej (Nyquista), gdyż łatwo tu o zakłócające nakładanie się 
widm — szczególnie, że sygnał na wyjściach filtrów poddawany jest jedynie 
uśrednianiu i mogą w nim występować tętnienia o częstotliwości odpowiada- 
jącej częstotliwości środkowej filtru. Ta filtracja dolnoprzepustowa jest 
często pomijana w strukturze członów wprowadzających sygnał mowy do 
komputera, co może być źródłem znacznych zakłóceń rejestrowanego 
i przetwarzanego sygnału. 

Dokładność amplitudowa przetwarzania analogowo-cyfrowcgo, następujące- 
go w każdym kanale częstotliwościowym oddzielnie lub za pomocą jednego 
przełączanego przetwornika, odgrywa w sumie mniejszą rolę, niż można 
przypuszczać. Z pozoru jest to kolejny, trzeci wymiar warunkujący informa- 
cyjną objętość wprowadzonego do komputera sygnału. Jednak zakres możli- 
wych zmian tego parametru jest niewielki, gdyż wymagana liczba poziomów 
jest także (na ogół) bardzo mała. Dynamika sygnałów w poszczególnych 
pasmach jest niewielka, znacznie mniejsza od dynamiki pełnego sygnału 
mowy. W dodatku dokładność odwzorowania amplitud sygnału nie ma 
w zadaniu rozpoznawania mowy tak wielkiego znaczenia, gdyż ważniejsze 
są relacje między sygnałem w sąsiednich pasmach (na przykład dla popraw- 
nej lokalizacji formantów) niż dokładne wartości, W. praktyce oznacza to, 
że wystarcza przetwarzanie kilkubitowe, przykładowo rekomendować 
można w tym zastosowaniu przetwornik pięciobitowy, którego zastosowa- 
nie gwarantuje (por. p. 4.1) odtworzenie dynamiki sygnału (w pasmach 
częstotliwości) nie gorsze niż 30 dB, podczas gdy wyniki badań wskazują, 
że obserwowana dynamika sygnału nie przekracza 20 dB. W prostszych 
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systemach rozpoznawania mowy stosuje się zresztą przetworniki o mniejszej 
liczbie bitów —- do jednobitowych włącznie. Nie kwestionując przydatności 
zbinaryzowanego widma stwierdzić jednak należy, że poprawniejsze z punk- 
tu widzenia jakości uzyskiwanych wyników jest stosowanie przetwarzania 
wielobitowego na wejściu i dokonywanie formowania widma na drodze 
obliczeniowej, z progiem dyskryminacji amplitud dostosowanym do aktual- 
nej (lokalnej) wartości sygnału. Przykładową techniką, która może okazać 
się przy tym użyteczna, jest technika histogramowa. Określając częstość 
występowania w pewnym rejonie widma poszczególnych (dyskretnych) 
wartości amplitud sygnału można łatwo ustalić właściwą dla danego od- 
cinka sygnału wartość granicznego poziomu amplitudy sygnału, powyżej 


którego odpowiednie fragmenty widma oznaczane będą jako I, a poniżej 
jako 0. 


Liczba poziomów dyskryminacji amplitudy w stosowanych przetwornikach a- 
nalogowo — cyfrowych, używanych dla wprowadzania sygnału mowy w pos- 
taci widma dynamicznego do systemu komputerowego, jest niewielka — 
od kilku do 32 (dla przetwornika pięciobitowego). Poziomy te byłoby ko- 
rzystnie rozmieścić nierównomiernie (por. p. 4.1). W praktyce się tegojednak 
nie stosuje, gdyż komplikuje się przy tym zarówno budowa przetwornika, 
jak i struktura algorytmów, wykorzystujących przetworzony sygnał w ma- 
szynie cyfrowej. Nieopłacalne jest także — pożądane z merytorycznego 
punktu widzenia — zróżnicowanie poziomów przetwarzania dla poszczegól- 
nych pasm częstotliwości, zgodnie ze znaną regułą, że maksimum energii 
mieści się dla sygnału mowy w niskich zakresach częstotliwości, ze wzro- 
stem zaś numeru pasma moc sygnału maleje — w przybliżeniu odwrotnie 
proporcjonalnie do częstotliwości środkowej pasma. Zamiast zróżnicowa- 
nych amplitudowo poziomów przetwarzania w poszczególnych pasmach 
stosuje się więc w praktyce preemfazę, to znaczy wstępne formowanie syg- 
nału wprowadzanego do systemu. Preemfaza podnosi poziom energetyczny 
składników o dużych częstotliwościach, przy czym dla preemfazy realizowa- 
nej w postaci różniczkowania sygnału korekta opadającej charakterystyki 
naturalnego sygnału mowy jest prawie idealna. 

Z niewielką liczbą bitów przeznaczonych do zapisu pojedynczej wartości 
amplitudy w ustalonym momencie czasu i w określonym pasmie częstotłi- 
wości wiąże się kolejny z wymienionych problemów. Chodzi o sposób 
upakowania informacji akustycznej w pamięci maszyny cyfrowej. Formal- 
nie rzecz ujmując, naturalna reprezentacja sygnału mowy przetworzonego 
w wyżej omówiony wstępny sposób polega na użyciu tablicy o liczbie 
kolumn odpowiadających liczbie wyróżnionych pasm częstotliwości i licz- 
bie wierszy zgodnej z liczbą wyróżnionych momentów czasu. Taki sposób 
reprezentacji ;jest jednak w najwyższym stopniu rozrzutny: każdy element 
tablicy odpowiada jednej komórce pamięci używanego komputera, co 
oznacza, że do jego reprezentacji użytych jest tyle bitów, ile wynosi długość 
słowa używanego komputera. W praktyce jest to więc 16, 32, a nawet 60 
bitów — a w rzeczywistości potrzeby nie przekraczają 5 bitów, gdyż taką 
dokładność miał przetwornik analogowo-cyfrowy. Aby zaoszczędzić pamięć 
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komputera, stosuje się więc zabieg „upakowywania” informacji, polegający 
w uproszczeniu na rozmieszczaniu w jednej komórce pamięci kilku niezależ- 
nych informacji, rozmieszczonych odpowiednio na fragmentach słowa uży- 
wanego komputera (rys. 5-3). ,„Upakowanie” informacji zmniejsza objętość 
zajętej przez sygnał mowy pamięci komputera, jednak nie odbywa się to za 
darmo. Komplikują się odpowiednio wszystkie programy wykorzystujące 


—a———-——— Długość słowa komputera ———- 
EEELHOEE==FLEH 
EEC 2 |= = 
Pierwsza Druga k-ta 
próbka próbka próbka 
sygnału sygnotu sygnatu 


5-3. Sposób upakowania informacji akustycznej w komórkach pamięci komputera. Krotność 
upakowania, oznaczona na rysunku k, może być bardzo duża, jej wartość zależy jednak od długości 
(liczby bitów) próbki sygnału i od długości słowa maszynowego. Upakowywanie jest nieopłacalne (na 
ogół) w maszynach o strukturze bajtowej 


zgromadzoną głosową informację, gdyż najprostsze nawet procedury prze- 
twarzania wymagają operacji „„rozpakowywania” danych i „upakowywania” 
wyników. Aby czas wykonywania operacji upakowania nie był zbyt duży, 
konieczne jest pisanie modułów programowych związanych z pakowaniem 
na poziomie języka wewnętrznego komputera, a to jest kłopotliwe, dlatego 
upakowanie warto stosować głównie wtedy, gdy jest duża dysproporcja 
między najmniejszym dostępnym (adresowalnym) kwantem pamięci, a licz- 
bą bitów przeznaczaną do zapisania pojedynczej wartości amplitudy syg- 
nału. Jeśli zysk z upakowania jest niewielki (na przykład kiedy używany 
komputer lub mikrokomputer ma organizację bajtową), wówczas upakowy- 
wanie się nie opłaca i powinno być pominięte. 

Problem kodu użytego do zapamiętania pojedynczych kwantów informacji 
oraz problem liczby bitów na pojedynczy kwant są ze sobą powiązane. 
Jeśli zamierzamy użyć kodu o specjalnych własnościach lub jeśli przewidu- 
jemy możliwość pisania programów przetwarzających informację upakowaną 
w pamięci w sposób ,,półrównoległy” (to znaczy bez rozpakowywania), 
wówczas liczba bitów rezerwowanych w pamięci komputera do zapisania 
pojedynczej wartości amplitudy musi być większa, niż to wynika z liczby 
poziomów używanego przetwornika analogowo-cyfrowego. Najczęściej 
jednak stosowany jest kod BCD, w którym wspomniane efekty nie występu- 
ją. 

Podsumowując przytoczone rozważania można zaproponować strukturę sy- 
stemu wprowadzania sygnału mowy do maszyny cyfrowej w postaci przed- 
stawionej na rys. 5-4. Jest to —jak wynikało z treści tego podrozdziału — jed- 
na z wielu możliwych koncepcji i struktur, ale jej użycie wydaje się uza- 
sadnione. W kolejnych rozdziałach będziemy rozważali algorytmy operujące 
na przetworzonym i wprowadzonym do komputera sygnale mowy, które 
realizować będą kolejne etapy procesu rozpoznawania, wymienione w p. 5.2 
i przedstawione na rys. 5-1. 
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5-4, Struktura układu wstępnego przetwarzania i wprowadzania sygnału mowy do maszyny cyfrowej. 
Filtry i demodulatory dokonują pasmowej, krótkookresowej analizy widma sygnału, przełącznik tworzy 
kod szeregowy z wyjść poszczególnych demodulatorów. Przetwornik A/C zwykle jest pojedynczy ze 
względu na koszt i powtarzalność warunków przetwarzania w poszczególnych kanałach. Układ 
sprzęgający wprowadza przetworzone próbki sygnału do urządzenia liczącego 


5.4. Wydziełanie parametrów przydatnych przy 
rozpoznawaniu 


Algorytmy omawianego teraz etapu pełnią rolę przygotowawczą. Sygnał 
mowy, nawet wstępnie przetworzony i wprowadzony do maszyny cyfrowej, 
nie stanowi właściwie podstawy dla algorytmów realizujących proces roz- 
poznawania. Przeszkodą jest tu z jednej strony zbyt duża objętość sygnału, 
z drugiej zaś jego niedogodna struktura. Jak się okaże z dalszych rozważań, 
najdogodniejsza forma danych dla algorytmów rozpoznawania, grupowania 
czy segmentacji polega na stosowaniu wektorów cech. Wektor taki, o ustalo- 
nej i na stałe przyjętej wymiarowości, zawiera informacje pozwalające na 
prawidłowe rozpoznawanie. Najłatwiej ocenić to przy zastosowaniu kry- 
teriów geometrycznych. Wprowadzając przestrzeń cech, w której poszcze- 
gólne osie odpowiadają wydzielonym oddzielnym cechom (parametrom 
sygnału) możemy sprecyzować wymagania co do pożądanego wektora 
cech w następującej postaci. W prawidłowo wybranej przestrzeni cech 
obiekty* identyczne pod względem fonetycznym powinny grupować się 
*) Pojęcie obiektu, które zostało tu nieformalnie użyte, można sprecyzować w następu- 
jący sposób. Każdy ustalony, wydzielony fragment sygnału mowy może być opisany 
przez zestaw swoich parametrów, Parametry te można uporządkować w formę wektora 
i w rezultacie każdemu fragmentowi sygnału mowy (na przykład każdej próbce widma 


dynamicznego) przypisać w rozważanej przestrzeni pewien punkt. Punkt ten, a dokładniej 
jego położenie względem innych punktów, może być przedmiotem (obiektem) rozpozna- 
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i skupiać w ustalonym obszarze przestrzeni, możliwie najbardziej odłegłym 
od skupisk odpowiadających innym klasom. Zilustrowano to przykładowo 
na rys. 5-5, na którym obszary skupień odpowiadające poszczególnym samo- 
głoskom języka polskiego na płaszczyźnie (bo tylko taka, dwuwymiarowa 
przestrzeń daje się narysować), której osie wyznaczają pierwszy i drugi 
formant. Wyraźne rozdzielenie skupisk odpowiadających samogłoskom 
i stosunkowo zwarty kształt obszarów, odpowiadających poszczególnym 
skupiskom dowodzą, że dwa pierwsze formanty niosą bardzo dużo użytecz- 
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5-5. Obszary lokalizacji poszczególnych samogłosek 5-6. Obszary lokalizacji poszczególnych 


języka polskiego na płaszczyźnie pierwszego samogłosek języka polskiego na płaszczyźnie 
1 drugiego formantu, Obszary są rozdzielne, jest momentów widmowych. Rozdzielczość jest tu 
więc możliwe rozpoznawanie samogłosek opierając gorsza, niż dla formantów, ale momenty 

się jedynie na wartościach dwu wskazanych dostarczają cennych informacji i uzupełniają 
formantów możliwości rozpoznawania na zbiór 


spółgłosek — szczególnie szumowych 


nej informacji i w kontekście zadania rozpoznawania samogłosek dostar- 
czają wystarczającej informacji do ich rozpoznawania. Nieco gorzej wypada- 
ją w tej ocenie niektóre inne parametry. Przykładowo na rys. 5-6 pokazano 
kształt podobnych obszarów dla poszczególnych samogłosek w przestrzeni 
wyznaczanej przez momenty widmowe (por. p. 4.4). Widać, że „rozmycie” 
obszarów poszczególnych klas jest teraz większe, a ich rozseparowanie 
w proponowanej przestrzeni — gorsze, chociaż nie aż tak złe, by miało to 
stanowić przesłankę do wnioskowania o złej separowalności i w następstwie 
do niemożności rozpoznawania samogłosek w tej przestrzeni. Wniosek ten 
jest zgodny z uwagami, jakie poczyniono przy wprowadzaniu momentów 
widmowych do parametrycznego opisu sygnału mowy. Nadają się one głów- 
wania, wobec tego będziemy używać nazwy obiekt do określenia wydzielonego segmentu 
mowy, opisanego wytypowanym zestawem parametrów. Każdy obiekt, to punkt w prze- 
strzeni, której bazę definiuje przyjęty zestaw parametrów, a określona zbiorowość obiek- 


tów, na przykład wszystkie próbki sygnału określonej głoski, wymawianej przez różne 
osoby, to skupisko punktów lub podobszar przestrzeni. 
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nie do opisu głosek szumowych lub jako parametry uzupełniające opis dany 
innymi parametrami, jednak w przypadku bardzo prostych głosek — a do 
takich należą bez wątpienia samogłoski — możliwe jest ich rozpoznawanie 
na podstawie wyłącznie momentów widmowych. 

Rysunki 5-5 i 5-6 stanowią przykład sposobu oceny parametrów (cech) na 
podstawie obrazu rozkładu obiektów poszczególnych rozróżnianych klas 
w przestrzeni generowanej przez wybrane parametry. Są one bardzo przy- 
datne do tego, aby zrozumieć, jakie koncepcje wiążą się z geometrycznym 
podejściem do zagadnienia oceny parametrów jako cech, zachowujących 
minimalną niezbędną ilość informacji, wystarczającą do rozpoznawania 
i klasyfikacji poszczególnych fragmentów sygnału mowy. Przydatność takich 
rysunków do rzeczywistej oceny obiektów jest jednak ograniczona, a to 
z powodu konieczności operowania w przestrzeniach wielowymiarowych. 
Kryteria skupienia obiektów należących do jednej klasy i rozproszenia po- 
szczególnych klas muszą więc w rzeczywistych zastosowaniach podlegać 
formalizacji matematycznej, tak aby rozstrzygające znaczenie miała wyli- 
czana matematycznie wartość kryterialna. Formalizacja taka może być sto- 
sunkowo łatwo przeprowadzona. Wystarczy określić w przestrzeni cech 
pojęcie odległości między poszczególnymi punktami oraz zdefiniować od- 
ległość punktu od zbioru oraz zbioru od zbioru. Pozostawiając chwilowo 
sprawę wyboru konkretnej postaci tych odległości możemy stwierdzić, że 
formułowane wyżej postulaty zwartości obiektów w poszczególnych wy- 
różnionych klasach oraz dostatecznie dobrego rozseparowania klas w roz- 
ważanej przestrzeni cech sformułować można następująco. 

Niech itemu wyróżnionemu odcinkowi sygnału mowy odpowiada wektor 
parametrów X', którego składowe xi, xż, ..., x, oznaczają wartości branych 
pod uwagę parametrów opisujących sygnał mowy i formujących (w myśl 
przytoczonych wyżej rozważań) wykorzystywaną przestrzeń cech. Warto 
zauważyć, że wymiar przestrzeni n (odpowiadający liczbie wyróżnionych 
parametrów) nie może być zbyt duży, gdyż w przeciwnym przypadku ko- 
rzyści wynikające ze stosowania parametrycznego opisu mowy stają się 
problematyczne. Równocześnie jednak w nietrywialnych przypadkach 
n > 2, zatem przydatność rysunków podobnych do 5-5 i 5-6 ogranicza się 
do orientacyjnego przedstawienia na przekrojach lub rzutach rozkładu 
obiektów wzdłuż ustalonych płaszczyzn. 

Proponowane dalej ujęcie formalne jest wolne od ograniczeń związanych 
z wymiarem przestrzeni i może znaleźć zastosowanie dła dowolnie dużych n, 
chociaż uciążliwość rachunków w przytoczonych wzorach rośnie w przy- 
bliżeniu proporcjonalnie do n?. 

Podstawą dalszych rozważań jest pojęcie odległości obiektu opisanej 
wektorem X* od obiektu opisanej wektorem X*. Oznaczmy tę odległość d”, 
przy czym oczywiście d” > 0 oraz d! = di!, Rozważając wszystkie obiekty 
X! należące do ustalonej, wyróżnionej klasy i (na przykład wszystkie prób- 
ki sygnału odpowiadające określonej głosce) możemy określić dla nich 
Ny(Nx— 1)/2 odległości (gdzie N; jest liczbą badanych obiektów należących 
do klasy k). Zakładamy, że mamy ustaloną regułę, zgodnie z którą można 
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określić jedną wartość odległości, którą uznamy za charakterystyczną dla 
całej klasy k i będziemy uważali za miarę rozrzutu obiektów wewnątrz tej 
klasy. Ta pojedyncza miara może być wybrana na wiele sposobów. Może to 
być średnia odległości wszystkich obiektów klasy, wartość maksymalna 
tych odległości, maksymalna lub średnia odległość obiektu od „środka 
ciężkości klasy” itp. W dalszych rozważaniach uważamy, że ta pojedyncza 
charakterystyczna wartość została dla każdej klasy ustalona i wynosi dh. 
Przyjmując, że rozważamy Ł klas obiektów mamy więc już Ł wartości 
dz (k = 1,2, ..., L). Wszystkie te wartości będą musiały współuczestniczyć 
w tworzeniu funkcji kryterialnej, stosowanej do oceny przydatności okreś- 
lonego zbioru parametrów. 
Rozważając dalej wszystkie pary klas musimy zaproponować miarę roz- 
sunięcia, rozseparowania, czy — mówiąc krócej — również miarę odległości, 
ale tym razem całych klas. Rozważając klasę k, zawierającą N, elementów, 
oraz klasę 7n, zawierającą N„ elementów, możemy określić NyN„ odległości, 
które mogą służyć jako tworzywo przy budowie miary odległości klasy k 
od klasy m, którą oznaczymy dalej Dz. Znowu jest tu do dyspozycji wiele 
możliwości. Można posłużyć się definicją metryki Hausdorfa, można wy- 
brać arbitralnie odległość maksymalną, minimalną lub średnią. Wybór ten, 
po jego dokonaniu, będzie rzutował na dokładność końcowego wyniku 
i na ocenę rozważanych zestawów parametrów. 
Niestety, pomimo pozorów zmatematyzowania kryteria naszego wyboru 
pozostają (częściowo przynajmniej) arbitralne, z uwagi na konieczność 
wyboru sposobu obliczania d*, dy, Dym — i dalsze, również arbitralne wy- 
bory. Matematyka nie zawsze bowiem oznacza obiektywizm oceny — 
chociaż łatwo można o tym zapomnieć, szczególnie posługując się kompu- 
terem. 
Wybrawszy jedną z wymienionych (lub dowolną inną) ewentualność mo- 
żemy przystępować do próby oceny. Na tym etapie rozważań mamy miary 
rozrzutu obiektów we wszystkich klasach d, oraz miary odstępu między 
wszystkimi klasami Dim (k, m = 1, 2, ..., L). Ocena powinna być w sumie 
tym wyższa, im większe będą Dym i im mniejsze będą d,. Ostateczna postać 
formuły matematycznej, określającej funkcję kryterium 

Q = Q(Dy2, Dyz, ..., Dy ts dy, da, .-., dr) (5.1) 
musi być wybrana przez badacza zgodnie z jego preferencjami. Sugerować 


można jedynie w charakterze przykładowego, sprawdzonego w działaniu 
rozwiązania, wzór postaci 


m (5.2) 


Stosując wzór (5.2) można uznać rozważany zestaw cech za zadowalający, 
jeśli © > 1. Zazwyczaj jednak trzeba się zadowalać gorszymi wynikami, 
które wszakże bynajmniej nie muszą oznaczać gorszej jakości rozpoznawa- 
nia. Istota rzeczy bowiem polega na tym, aby dla tych klas, których rozrzut 
jest niepokojąco duży, zapewnić dostatecznie duży dystans od sąsiednich 
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klas w celu możliwości prawidłowej separacji. Natomiast dla tych klas, które 
mają mały rozrzut, dopuszczalny jest też mniejszy dystans od klas sąsied- 
nich. Wzór (5.2) ma więc charakter asekurancki, zbyt surowy i może nie- 
kiedy sugerować celowość odrzucenia zestawów cech w istocie bardzo 
przydatnych przy rozpoznawaniu. Niestety, trudno jednak proponować 
inne miary, gdyż zawsze da się dobrać przykład tak dobranych danych, że 
utworzone przez te dane struktury w przestrzeni cech będą źle separowalne 
przy poprawnych wartościach funkcji kryterialnej. Użycie wzoru (5.2) 
można zatem traktować jako zło konieczne do czasu opracowania dosko- 
nalszych kryteriów. 
Wracając do konkretów trzeba stwierdzić, że zaproponowane kryterium 
(przy wszystkich jego mankamentach) pozwala na wybór parametrów, za 
których pomocą będziemy opisywać sygnał mowy przed jego rozpoznawa- 
niem, wcześniejsze rozważania zaś (por. p. 4.4 i ewentualnie 4.5) pozwalają 
na generację takich parametrów. Zresztą, co warto podkreślić, w tym za- 
kresie jest jeszcze wiele do zrobienia i tu właśnie najłatwiej można wnieść 
nowy, znaczący wkład do badań nad rozpoznawaniem mowy. 
Tymczasowo jednak skupimy się na koncepcjach znanych i uznanych. 
Poza dyskusją wydaje się być celowość włączenia formantów do zbioru 
parametrów przydatnych do rozpoznawania. Ich znaczenie w procesie arty- 
kulacji i naturalnej percepcji mowy, a także liczne potwierdzone w praktyce 
pozytywne próby rozpoznawania mowy z wykorzystaniem formantów, 
stanowią tu argumenty, z którymi trudno polemizować. Tak więc pierwsze 
trzy składowe proponowanego wektora cech, używanego dalej przy roz- 
poznawaniu, są identyczne z wartościami trzech pierwszych częstotliwości 
formantowych 

xzsĘ i=1,2,3 (5.3) 


przy czym w razie braku (lub niemożliwości wykrycia) określonego i-tego 
formantu odpowiednia wartość x, = O na zasadzie definicji. Formanty nie 
wystarczają jednak do rozpoznawania niektórych ważnych klas głosek, na 
przykład głosek szumowych (trących) i dlatego wymiar wektora cech musi 
być rozszerzony. Trudno przesądzać, które parametry są najbardziej pre- 
destynowane do tego, aby zająć kolejne pozycje, wydaje się jednak, że ko- 
rzystne własności w tych przypadkach, dla których zawodzą formanty, 
wykazują momenty widmowe (por. p. 4.4) i z tego względu można przyjąć, 
że kolejne dwa elementy wektora cech X powinny mieć postać 

x, = Ml) (5.4) 

xs = Me(2) (5.5) 


Oczywiście istnieje bardzo wiele innych parametrów, które mogą okazać się 
przydatne w zadaniach rozpoznawania mowy. Ich definicje i sposoby prak- 
tycznego obliczania są przedmiotem licznych publikacji, a poszczególni 
Autorzy mogą na bardzo przekonywających przykładach udowodnić, że ich 
propozycje doskonale nadają się do rozpoznawania pewnych, ustalonych 
klas elementów mowy. Podstawową zaletą wektora cech X powinna jednak 
być zwięzłość. Wymagając krótkiego i zwartego opisu nie możemy mnożyć 
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5.5. 


parametrów w nieskończoność, gdyż wkrótce może się okazać, że objętość 
informacyjna parametrycznego opisu sygnału jest porównywalna z objętoś- 
cią źródłowego sygnału, co jest efektem bez wątpienia w najwyższym stopniu 
niekorzystnym. Poprzestaniemy zatem na pięciowymiarowym (n = 5) wek- 
torze cech, opisującym wybrane próbki sygnału mowy. Rozpoznawanie, 
klasyfikacja, segmentacja sygnału — wszystkie te operacje będą prowadzone 
w pięciowymiarowej przestrzeni, co obok innych zalet ma jeszcze tę, że 
stwarza przesłanki do przetwarzania i rozpoznawania sygnału w czasie 
rzeczywistym. Na problem ten, wzmiankowany już w p. 4.4, warto teraz 
zwrócić dodatkowo uwagę. Wiemy z poprzedniego podrozdziału, że ko- 
lejne próbki widma sygnału wprowadzane są do komputera rozpoznającego 
mowę w odstępach czasowych około 10 ms. Zachowanie warunków pracy 
w czasie rzeczywistym wymaga w tej sytuacji takiej definicji wektora cech X 
oraz opracowania takich algorytmów określania jego składowych, aby 
proces obliczania wartości wszystkich x, nie trwał dłużej niż 10 ms. Tylko 
w takim przypadku program określania parametrów będzie nadążał za 
strumieniem napływających danych, przetwarzając je na bieżąco do do- 
godnej dla dalszych etapów rozpoznawania formy. Samo rozpoznawanie 
może trwać nieco dłużej, gdyż po zakończeniu wypowiedzi (komendy) 
człowiek jest skłonny zaczekać pewien czas na reakcję maszyny — chociaż 
i tu obowiązują ograniczenia czasowe. Jeśli czas reakcji systemu będzie się 
nadmiernie wydłużał, to człowiek może się zdekoncentrować z fatalnym 
skutkiem dla sterowanego procesu. Aby więc nie dopuścić do utraty ciągłości 
dialogu człowieka z maszyną, odpowiedź (lub wymagana reakcja w postaci 
wykonania zadanej czynności) musi nastąpić nie później, niż po około dwu 
sekundach. Niekorzystne jest, gdy następuje szybciej (człowiek czuje się 
wówczas „,poganiany” przez maszynę i ten dyskomfort odbija się nieko- 
rzystnie na efektywności pracy), fatalne jednak jest, jeśli następuje znacznie 
później. Dwie sekundy to dużo, komputer może w tym czasie wykonać 
miliony operacji, jednak biorąc pod uwagę złożoność algorytmów roz- 
poznawania — to mało, zbyt mało, by z tego czasu „,pożyczać” część 
na proces wydobywania parametrów sygnału. Tak więc graniczny czas 
około 10 ms określa możliwości stosowania do opisu sygnału mowy licz- 
niejszych i bardziej wyrafinowanych parametrów. Pozostaniemy więc przy 
wektorze cech, opisanym wzorami (5.3)-+ (5.5), gdyż — jak wykazuje do- 
świadczenie — łatwo dostępne w Polsce komputery zapewniają przy takim 
wektorze cech warunki pracy w czasie rzeczywistym, zawartość potrzebnej 
informacji zaś w tak określonym zbiorze parametrów wydaje się być wys- 
tarczająca do skutecznego rozpoznawania większości elementów mowy 
polskiej. 


Problem segmentacji ciągłego sygnału mowy 


Jak wspomniano wyżej (por. p. 5.2), jednym z zasadniczych problemów, 
jakie musi podjąć i rozstrzygnąć badacz zajmujący się rozpoznawaniem 
mowy, jest wybór elementów podlegających rozpoznawaniu. Wybór ele- 
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mentu zbyt dużego (na przykład wyrazu lub sylaby) wiąże się z koniecznością 
przechowywania w pamięci systemu bardzo dużej liczby wzorców*, Wybór 
elementu małego i wygodnego, jakim bez wątpienia jest fonem, wiąże się 
z koniecznością segmentacji. W ciągłym sygnale mowy granice między fone- 
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mami są zatarte. Co więcej — o czym już wcześniej była również mowa — 
dla poprawnej identyfikacji fonemu mogą być potrzebne informacje leżące 
poza jego teoretycznymi granicami (na przykład głoski zwarte można łatwo 


*» Można przyjąć, że do pełnego rozpoznawania mowy polskiej trzeba zgromadzić słow- 
nik przynajmniej 500 tysięcy odmiennych form wyrazów — chyba że system wyposażymy 
w obszerny moduł gramatyczny, zdolny do uporania się z fleksyjnością mowy polskiej, 
gdyż wówczas wystarczy zapamiętać około 120 tys. wzorców wyrazów dla rozpoznawania 
dowolnych wypowiedzi i około 30 tys. dla specjalnych podzbiorów języka, względnie 
konieczne jest pamiętanie ponad 2300 wzorców syłab. 
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rozpoznawać jedynie wtedy, gdy możliwe jest śledzenie zmian formantów 
w poprzedzających i następujących po nich samogłoskach). Niemniej pro- 
blem segmentacji istnieje i wymaga rozwiązania. 

Większość proponowanych w literaturze metod rozpoznawania,granic mię- 
dzy segmentami opiera się na stwierdzeniu, że sygnał na granicy zmienia 
istotnie swój charakter. Istotnie, rozważając przedstawiony na rys. 5-7, 
przebieg wypowiedzi serce łatwo można zauważyć, że w punktach oznaczo- 
nych strzałkami charakter sygnału zmienia się dość radykalnie, co w więk- 
szości przypadków jest charakterystycznym elementem pozwalającym wy- 
kryć granice między fonemami. Równie dobitnie można to prześledzić na 
rys. 5-8, obrazującym widmo dynamiczne rozważanego sygnału. Tu także 


5-8. Segmentacja jest 
również możliwa na 
podstawie obrazu 
widma dynamicznego, 
którego zmiany 
(zaznaczone 
strzałkami) 
odpowiadają 
granicom segrnentów 


granice między fonemami cechują się wyraźną zmianą charakteru sygnału. 
Wszystkie te rozważania prowadzą jednak do stwierdzeń mało przydatnych 
w praktyce komputerowego rozpoznawania mowy: „zmiana charakteru” 
sygnału, łatwo zauważalna przez człowieka i dość oczywista dla nawet mało 
doświadczonego obserwatora, jest bardzo trudna do opisania w kategoriach 
algorytmu komputerowego. Jak bowiem ująć ilościowo „charakter” syg- 
nału, jak wyrazić jego zmianę i na jakiej podstawie wyrokować, że jedna 
zmiana jest „wyraźna”, a inne nie? Jak w dodatku zapewnić stosowną do 
potrzeb szybkość tego procesu, aby segmentacja nie stała się „wąskim 
gardłem” procesu rozpoznawania? Na te pytania niełatwo udzielić odpo- 
wiedzi, a propozycje, znajdujące się w literaturze, podzielić można na trzy 
grupy: albo autorzy prac unikają problemu segmentacji przyjmując, że 
rozpoznawanymi obiektami są całe wyrazy (w dodatku wyraźnie rozdzielane 
przy wymawianiu), albo prowadzi się badania nad rozpoznawaniem ele- 
mentów wydzielonych z ciągłego sygnału mowy „„ręcznie” (przez odpowied- 
nio kwalifikowanego operatora), albo wreszcie proponowane są algorytmy 
rozdzielania i segmentacji sygnału mowy — ale tak skomplikowane i praco- 
chłonne, że ich zastosowanie w praktyce wydaje się problematyczne. 

W tej sytuacji celowe jest poszukiwanie rozwiązań niekonwencjonalnych. 
Zamiast szukać metod segmentacji sygnału mowy na elementy, przyjęte dla 
tego sygnału w sposób sztuczny, lepiej poszukiwać elementów, na które 
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5-9. Segmentacji można dokonywać także na podstawie wartości 
parametrów. Prezentowana na rysunku mapka formantów 
wypowiedzi serce pokazuje, że granice segmentów mogą być 

tu także wykryte — chociaż nie wszystkie — na przykład granica 
między r a e 


RARE aERzenąy 9, gaz 


© se 


oazy ż portowa, 
o 


08 czasu 
wyskalowana w milisekundach 


UWAGA ; 


5-10. Granice segmentów są również widoczne na mapce 
momentów widmowych. W tym przypadku możliwe było 


zlokalizowanie wszystkich granic. Łącznie z obrazem formantów 


momenty dają prawie stuprocentową gwarancję poprawnej 
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segmentacji. (Zaznaczone granice dotyczą najniżej złokalizowanej 


mapki wypowiedzi). 


sygnał mowy dzieli się w sposób naturalny, na zasadzie podobieństwa jego 
struktur. Oprzemy się przy tym na parametrach i cechach, wydzielonych 
przez algorytmy omówione w poprzednim podrozdziale. W przestrzeni pa- 
rametrów granice między segmentami są bowiem również zauważalne (por. 
rys. 5-9 i 5-10, na których pokazano „mapki” zamian formantów i momen- 
tów widmowych dla tego samego sygnału, co na rys. 5-7 i 5-8), a prowadze- 
nie segmentacji jest znacznie mniej pracochłonne. Zauważmy przy tym, że 
pewna, bardzo arbitralna i nie związana z jakimikolwiek naturalnymi 
strukturami w sygnale mowy, ale realna, segmentacja dokonywana jest już 
w momencie wprowadzania sygnału mowy do komputera. Istotnie, proces 
próbkowania czasowego kwantuje widmo — dzieli na odcinki nazywane 
niekiedy widmami chwilowymi. Można sobie wyobrazić sytuację, że właśnie 
widma chwilowe będziemy traktować jako podlegające rozpoznawaniu 
segmenty, które roboczo można nazwać mikrofonemami. Składnik „„mikro” 
w proponowanej nazwie sugeruje, że podlegająca rozpoznawaniu jednostka 
jest mniejsza od fonemu, że fonem może być zdefiniowany jako określona 
sekwencja takich podjednostek oraz że rozmiary (czasowe) podlegającego 
rozpoznawaniu elementu są najmniejsze z możliwych. 
Powstaje jedynie problem, z jakimi wzorcami porównywać mikrofonemy, 
jak je klasyfikować i jak rozpoznawać. Nie ulega wątpliwości, że wzorców 
mikrofonemów musi być więcej niż wzorców fonemów. Wynika to z faktu, 
że między fonemami w mowie ciągłej występują stany przejściowe, które 
zresztą bywają bardzo użyteczne z punktu widzenia procesu rozpoznawania. 
, Jeśli więc rozważamy najprostszy zestaw fonemów, na przykład wyraz 45, 
to możemy w nim oczekiwać co najmniej pięciu wzorców mikrofonemów: 
segmentu odpowiadającego narastaniu głoski a (segment przejściowy typu 
„Cisza-a”), segmentu ustalonego głoski a, segmentu przejściowego pomiędzy 
a i s, segmentu ustalonego głoski s oraz segmentu zanikania głoski s (przejś- 
cie „s — cisza”). Rozpatrując to zagadnienie w podobny do podanego spo- 
sób możemy oczekiwać kilkuset mikrofonemów (przy 40 fonemach liczba 
oczekiwanych mikrofonemów sięga 820 wzorców, co bynajmniej nie wy- 
czerpuje wszystkich możliwości, gdyż niektóre fonemy nawet w swoim 
„Stanie ustalonym” prezentują na przemian kilka wzorców widma — na 
przykład głoska r — inne zaś fonemy mają kontekstowo zależne odmiany 
brzmieniowe o zróżnicowanym kształcie widma i rozmaitych wartościach 
używanych do opisu parametrów). 
Liczba ta jest stanowczo zbyt duża, aby rozważaną grupę wzorców trakto- 
wać jako dobry zbiór rozpoznawanych elementów. Sposobów redukcji 
wskazanej grupy wzorców najdogodniej poszukiwać metodami opierającymi 
się na wzajemnej bliskości obiektów w przestrzeni cech. W tym celu każde 
widmo chwilowe rozważanego zbioru próbek sygnału mowy (im obszerniej- 
szy ten zbiór próbek — tym lepiej) traktujemy jako punkt w przestrzeni cech. 
W poprzednim podrozdziale ustalono i ustalenie to obowiązuje nadal, że 
przestrzeń cech ma pięć wymiarów, wynikających z pięciu mierzonych dla 
każdego widma parametrów sygnału: trzech formantów i dwu momentów 
widmowych. W tej pięciowymiarowej przestrzeni dokonuje się następnie 
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grupowania obiektów, wykorzystując do tego celu znane algorytmy analizy 
skupień (ang. cłuster analysis), Algorytmy te dokonują łączenia bliskich 
sobie (w sensie określonej miary) obiektów tworząc skupienia, możliwe 
w dalszych rozważaniach do zastąpienia przez pojedynczych reprezentan- 
tów. 

Proces tworzenia skupień można prowadzić generalnie na dwa sposoby. 
Pierwszy, nazywany aglomeracyjnym, polega na kolejnym łączeniu bliskich 
sobie obiektów (pierwotnych, pochodzących z rozważanego zbioru danych, 
lub wtórnych -— będących reprezentantami wcześniej utworzonych skupień), 
aż do uzyskania pożądanej liczby skupień lub do utworzenia skupień o wy- 
maganych własnościach. Drugi sposób, nazywany podziałowym, polega na 
traktowaniu pierwotnie całej zbiorowości dostępnych danych jako jednego 
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5-11. Dendrogram obrazujący kolejność łączenia próbek sygnału mowy w procesie grupowania jednym 
z algorytmów analizy skupień. Po lewej stronie rysunku naniesiono skalę stopnia podobieństwa. 
Algorytmy podziałowe funkcjonują na zasadzie przechodzenia wskazanego grafu od dołu do góry, 
algorytmy aglomeracyjne odpowiadają przechodzeniu od góry do dołu; w obydwu przypadkach ważny 
jest moment przerwania procesu grupowania, decydujący o przydatności zbudowanych skupień 
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dużego skupienia, które następnie jest kolejno dzielone na mniejsze skupie- 
nia metodą rozcinania najdłuższego połączenia (dzięki temu podziały 
separują obiekty lub skupienia najbardziej oddalone od siebie w przestrzeni 
cech). 

Ponieważ obok rozróżnienia na metody podziałowe i aglomeracyjne istnieje 
wiele dalszych rozróżnień i podziałów wykorzystywanych algorytmów ana- 
lizy skupień, przeto ostateczny wynik zastosowania dyskutowanych metod 
zależy po części od charakteru dzielonych danych, po części jednak również 
od użytej metody — ma więc znowu poniekąd arbitralny charakter. Kolejny 
element dowolności wprowadza kryterium zatrzymania używanego algo- 
rytmu. Istotnie, bez ustalenia konkretnych warunków zatrzymania, progra- 
my działające według metody podziałowej nie zatrzymują się, dopóki nie 
utworzą osobnego „skupienia” z każdego analizowanego obiektu, algo- 
rytmy aglomeracyjne będą zaś działały do momentu utworzenia jednego 
wielkiego skupienia ze wszystkich obiektów połączonych razem. Pożądany 
wynik leży oczywiście między tymi skrajnościami i trzeba go „„wyłowić” 
zadając odpowiedni warunek „stopu”. Nie jest to proste, a w dodatku — 
jak wspomniano —: wnosi do rozważań kolejny element arbitralności. 
Wynik pracy algorytmów grupowania najlepiej rozważać w formie dendro- 
gramu pokazującego, jakie obiekty i z jakim stopniem podobieństwa (blis- 
kości) zostały w kolejnych krokach algorytmu połączone lub rozdzielone. 
Na przykład, na rys. 5-11 pokazano dendrogram procesu grupowania widm 
chwilowych sygnału mowy, stanowiący podstawę do wytypowania pewnej 
ustalonej grupy wzorców przy rozpoznawaniu. Taka forma prezentacji jest 
w praktyce jedyną możliwą, ponieważ stosowane niekiedy w podręcznikach 
prezentacje w postaci obrazów rozkładu obiektów w przestrzeni cech oraz 
połączeń między nimi są tu nieprzydatne, gdyż przestrzeń, w której dokonu- 
je się grupowania, jest pięciowymiarowa. Jedynie do demonstracji można 
wybrać dowolne dwa z pięciu używanych wymiarów przestrzeni i pokazać 
powiązania przykładowego zbioru obiektów — zrzutowane na wybraną 
płaszczyznę. Na rysunku 5-12 pokazano układ punktów odpowiadających 
wybranym obiektom zrzutowany na płaszczyznę trzeciego formantu i pierw- 
szego momentu widmowego. Zaznaczone powiązania między obiektami od- 
powiadają pewnemu początkowemu etapowi grupowania metodą aglomera- 
cyjną. Na dalszych etapach kreślenie podobnej mapki jest utrudnione ze 
względu na liczne, wielokierunkowe powiązania między obiektami i ich 
grupami, co zaciemnia obraz. Podkreślić należy, że rysunki 5-11 i 5-12 sta- 
nowią jedynie ilustracje pokazujące istotę zastosowanych metod grupowa- 
nia, ponieważ — niezależnie od sposobu prezentacji — przytoczenie wyni- 
ków rzeczywistych badań nastręcza poważne trudności ze względu na liczbę 
obiektów, na podstawie których określa się grupy. Rzeczywistym celem 
grupowania jest bowiem, przypomnijmy, znalezienie wzorców mikrofone- 
mów, które mogą pełnić rolę punktów odniesienia przy rozpoznawaniu. 
Badania prowadzone w Zakładzie Biocybernetyki AGH w Krakowie przez 
dra Andrzeja Izworskiego pozwoliły na ustalenie następujących prawidło - 
wości. W wyniku zastosowania analizy skupień do ponad 30 tysięcy widm 
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5-12, Rzutowanie 
skupień elernentów 


chwilowych stanowiących próbki rzeczywistego sygnału mowy (pojedynczy 
głos męski, nagranie w komorze bezechowej) wyróżniono i zlokalizowano 
metodami aglomeracyjnymi początkowo 973 wzorce widm. Następnie pro- 
wadzono (na podstawie macierzy odległości tych wzorców widm) proces 
tworzenia skupień do momentu pojawienia się mikrosegmentów łączących 
ewidentnie różne z fonetycznego punktu widzenia elementy sygnału mowy. 
W momencie przerwania programu analizy skupień (po około 70: 10% s 
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obliczeń komputera, Cyber 72) wyróżnionych było 270 mikrosegmentów, 
spośród których większość (203 segmenty) stanowiła mało liczne (poniżej 
10 widm chwilowych) skupienia widm „,zakłóceniowych”” (nietypowe obrazy 
widma poszczególnych głosek, przebiegi przypadkowe, zniekształcone za- 
pisy itp.). Analizie poddano wyłącznie pozostałe 67 segmentów, wśród któ- 
rych stwierdzono istnienie 52 segmentów odpowiadających pojedynczym 
fonemom (najczęściej stanom ustalonym fonemów), 15 skupień zaś grupo- 
wało typowe przebiegi transjentowe (stany przejściowe między ustalonymi 
fonemami). Niestety, mimo znacznej liczebności: zbioru wyróżnionych 
mikrosegmentów (mikrofonemów) nie dla każdej głoski udało się zidentyfi- 
kować odpowiadające jej skupienie. Są wprawdzie głoski, dla których udało 
się określić jedno lub — częściej — kilka skupień widm (przykładowo dla 
wszystkich samogłosek, sylabicznych i niesylabicznych, głoski r, spółgło- 
sek trących dźwięcznych v, z, 3), sąjednak niestety i takie skupienia, które 
odpowiadają kilku różnym głoskom (na przykład spółgłoski zwarte łączą 
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się wszystkie w jedno skupienie, podobnie wspólne skupienia mają głoski 
trące i zwarto-trące). 

Jak z tego wynika, rozpoznawanie oparte na koncepcji mikrofonemów nie 
może (w chwili obecnej, gdyż możliwy jest w tej dziedzinie postęp przy wy- 
korzystaniu bardziej adekwatnych zbiorów cech) gwarantować całkowicie 
poprawnego rozpoznania wszystkich elementów mowy. Jeśli jednak uwzględ- 
ni się dodatkową informację wnoszoną przez segmenty transjentowe, a także 
jeśli wykorzysta się możliwości korygowania rozpoznania wynikające 
z uwzględnienia szerszego kontekstu, wówczas użyteczność mikrofonemów 
wydaje się prawdopodobna, a ich zalety —- głównie w postaci możliwości 
eliminowania kłopotliwego procesu segmentacji sygnału przed rozpozna- 
waniem oraz szansy uproszczenia procesu rozpoznawania — mogą skłaniać 
do prób praktycznego wykorzystania przytoczonych wyników. 

W celu pełniejszej orientacji w tablicy 3 przytoczono pełną listę wyłonio- 
nych w trakcie badań mikrofonemów wraz z podaniem nazw fonemów, 
którym te mikrofonemy odpowiadają. Dla uniknięcia sporów terminolo- 
gicznych mikrofonemy wyłącznie numerowano, nie nadając im nazw. Mi- 
krofonemy o numerach wyższych od 52 odpowiadają transjentom, co za- 
znaczono podając w objaśnieniu kolejnych wierszy tabeli pary fonemów 
połączonych łącznikiem ,„—”. Zwraca uwagę, że transjenty tworzą wyłącznie 
samogłoski, przy czym transjent może być charakterystyczny dla spółgłoski 
poprzedzającej samogłoskę lub następującej po niej. 

Dzięki wprowadzeniu koncepcji mikrofonemu można uniknąć kłopotów 
związanych z segmentacją sygnału mowy. Wydatnie wzrasta przy tym liczba 
podlegających rozpoznawaniu klas (zamiast 40 fonemów blisko 70 mikro- 
fonemów), co jest zjawiskiem niekorzystnym. W dodatku rozpoznanie nie 
ma charakteru ostatecznego, gdyż na podstawie sekwencji mikrofonemów 
trzeba dopiero „odgadywać” sekwencję fonemów — co zajmuje czas i komp- 
likuje algorytmy rozpoznawania. Rozwiązania opierające się na koncepcji 
mikrofonemów nie są więc optymalnym rozwiązaniem problemu segmen- 
tacji, lecz są właściwie „„trikiem” o chwilowym zastosowaniu — zanim nie 
zostaną opracowane naprawdę skuteczne i szybkie metody segmentacji. 
Zresztą — być może segmentacja okaże się w przyszłości zbyteczna. Istnieją 
poglądy — i:jest w nich zapewne wiele prawdy — że ludzie percepują mowę 
bez dokonywania segmentacji, umiejętność zaś rozłożenia wyrazu na ele- 
menty składowe (na przykład głoski) jest czymś wtórnym w stosunku do 
rozpoznawania. Łatwo się o tym przekonać słuchając nieznanego tekstu 
w obcym języku. Niemożliwe okazuje się nie tylko zrozumienie wypowiada- 
nych wyrazów, ale także ich zapisanie (fonetyczne rzecz prosta). Dopiero 
wielokrotne wysłuchanie wyrazu pozwala na jego analizę i wyróżnienie 
występujących w nim fonemów. I dotyczy to człowieka, którego możliwości 
w zakresie rozpoznawania mowy — co wielokrotnie podkreślano — wielo- 
krotnie przewyższają możliwości najdoskonalszych komputerów. Zatem 
może segmentacja jest w istocie zbędna? Niestety, na razie w systemach 
automatycznego rozpoznawania nie można się bez niej obejść. Jednak w mia- 
rę rozwoju elektroniki, w miarę udostępniania coraz większych i tańszych 
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"Tablica 3, 


5.6. 


Mikrofonemy i odpowiadające im głoski, grupy głosek lub transjenty 
(dynamiczne stany przejściowe pomiędzy głoskami) 


mikro” Odpowiadające mu fonemy lub mikro. Odpowiadające mu fonemy lub 
fonemu fonemu 
1 G) 35 | (6), (8), (s), (dz) 
2 () 36 (6), (v) 
3 (e) 37 (0, (3) 
4 (e) 38 (w 
5 (e) 39 (v) 
6 (e) 40 (w) 
7 (a) 41 (8), (x) 
8 (a) 42 (z) 
9 (a) 43 (z) 
10 (a) 44 (2) ją 
u (a) 45 6. (3). (6), (03), (45), GA) (A%) 
12 (a) 46 3) 
13 (0) 41 (3) 
14 (o) 48 (2) 
15 (o) 49 (dź ) 
16 (a) 50 (P). (b). (t), (d), (c), (3), (k), 
17 (o) (g) 
18 (u) SI (k) 
19 (u) 52 (k) 
20 (u) 53 (a) — (k) (transjent) 
21 (6) 54 (0) — (n) (transjent) 
22 (w) 55 (0) — (n) (transjent) 
23 (w) 56 (0) — (n) (transjent) 
24 (r) 57 (0) — (m) (transjent) 
25 (r) 58 (o) — (1) (transjent) 
26 (nh, (m) 59 (m) — (o) (transjent) 
27 (1), (n) 60 (a) — (s) (transjent) 
28 (m), (p) 61 (k) — (a) (transjent) 
29 (m), (p) 62 (k) — (a) (transjent) 
30 (m) 63 (k) — (a) (transjent) 
31 (n), (9) 64 (s) — (a) (ansjent) 
32 (n) 65 (is) — (e) (transjent) 
33 (m), (n), (p). (g) 66 (4) — (e) (transjent) 
34 (0) 67 (i) — (1) (transjent) 


pamięci, potężniejszych mocy obliczeniowych, procesorów macierzowych — 
kto wie? Może już wkrótce argumenty przemawiające zą koniecznością 
segmentacji, przytoczone na początku tego podrozdziału, będą miały zna- 
czenie — jedynie historyczne? 


Rozpoznawanie elementów mowy 


Mając wydzielone podlegające rozpoznawaniu elementy, a także mając 
zdefiniowane parametry, za których pomocą zamierzamy te elementy roz- 
poznawać, możemy teraz zastanowić się nad wyborem metody rozpozna- 
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wania, optymalnej dla zadania rozpoznawania mowy. Zadanie, które przed 
nami stoi, można na płaszczyźnie formalnej rozważać w następującej pos- 
taci. 

Mamy £ klas obiektów, z których każdy charakteryzowany jest przez zes- 
pół 5 cech, tworzących wektor X = (X, X2, X3, X4, Xxs) i może być repre- 
zentowany jako punkt w pięciowymiarowej przestrzeni. Reguły rozkładu 
obiektów różnych klas w przestrzeni cech nie są znane, jedyne informacje 
na ten temat, jakimi badacz może się posłużyć, pochodzą z tak zwanego 
zbioru uczącego. Jest to zbiór obiektów (próbek sygnału mowy), których 
przynależność do wybranych klas jest ustalona a priori. Zadanie polega na 
ustaleniu na podstawie ciągu uczącego — reguły rozpoznawania klasy, do 
której należą nowe, nieznane obiekty, a następnie na efektywnym rozpozna- 
waniu tych nieznanych obiektów. Możliwe:jest kilka podejść do rozwiązania 
tak sformułowanego zadania, przy czym ich szczegółowa dyskusja wykracza 
poza ramy książki i ponownie, jak za każdym podobnym razem, odeślemy 
Czytelnika do wyliczonych na końcu pozycji literatury. Podane zostaną 
teraz zasadnicze wyniki i podstawowe wnioski, mające zastosowanie 
w zadaniu rozpoznawania mowy — gdyż większość publikacji dotyczących 
rozpoznawania odwołuje się do problemów rozpoznawania obrazów. 
Najprostsza idea przy rozpoznawaniu polega na mierzeniu odległości między 
nieznanym obiektem a wszystkimi obiektami, których przynależność (po- 
prawna identyfikacja) jest znana. Oznacza to w praktyce konieczność za- 
pamiętania w urządzeniu rozpoznającym wszystkich obiektów ciągu uczą- 
cego, czyli wszystkich próbek elementów sygnału mowy, których rozpozna- 
nie jest znane. Zwykle jest to bardzo dużo wzorców i jest to jedna z głów- 
nych wad rozważanej metody. Zaletą jej jest natomiast prostota i skutecz- 
ność działania. Decyzję podejmuje się na tej zasadzie, że nieznany obiekt 
zostaje zaliczony do tej samej klasy, do której zaliczony był jego najbliższy 
sąsiad, czyli obiekt ciągu uczącego, którego odległość od rozpoznawanego 
obiektu była w przestrzeni cech minimalna. Podana zasada jest prosta 
w realizacji i efektywna, a także intuicyjnie zrozumiała. Ma ona także wiele 
wspólnego z chętnie stosowanym przez ludzi rozumowaniem przez analogię. 
Jeśli tylko obiekty ciągu uczącego dobrano właściwie, to znaczy jeśli są one 
reprezentatywne (obejmują wszystkie ważne możliwe warianty rozważanych 
próbek sygnału), a także jeśli nie zawierają błędów, czyli obiektów o błędnie 
podanej lokalizacii lub omyłkowo przypisanej przynależności, wówczas 
opisana metoda — nazywana w literaturze algorytnem NN — jest bardzo 
skuteczna. Omyłki lub braki rozpoznania zdarzają się przy jej użyciu jedynie 
sporadycznie, a wiarogodność rozpoznawania jest najwyższa z możliwych. 
Niestety, omówione zalety metody okupione są zasadniczymi wadami: 
wspomnianą wcześniej dużą zajętością pamięci (wynikającą z konieczności 
pamiętania wszystkich obiektów ciągu uczącego) oraz małą szybkością dzia- 
łania, wynikającą z tej samej przyczyny (policzenie odległości od nieznanego 
obiektu do wszystkich znanych musi trwać, nawet przy szybkim komputerze, 
dość długo, a operacja wyszukiwania odległości najmniejszej też do naj- 
szybszych nie należy). Wadę tę-można starać się częściowo usunąć stosując 
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ograniczoną reprezentację wszystkich klas w postaci sztucznie tworzonych 
wzorców. Na przykład jeśli kształt obszaru wyznaczonego w przestrzeni 
cech przez obiekty pewnej interesującej klasy zbliżony jest do kuli, wówczas 
te same reguły decyzyjne otrzymuje się stosując rozpoznawanie na podstawie 
mierzenia odległości nieznanego obiektu od wszystkich elementów ciągu 
uczącego jak w przypadku, kiedy całą klasę reprezentuje pojedynczy obiekt 
zlokalizowany w środku kuli. Wyznaczenie takiego reprezentatywnego 
obiektu (centroidu), jest w rozważanym przypadku łatwe, Współrzędne cen- 
tralnego punktu mogą być wyznaczone jako wartości średnie wyliczone ze 
współrzędnych wszystkich punktów wchodzących w skład ciągu uczącego 
dla rozważanej klasy. 

Opisane postępowanie może być w określonych przypadkach uzasadnione. 
Z jednej strony w wyniku wyliczenia wartości średniej ze współrzędnych 
punktów ciągu uczącego otrzymuje się — rozważając to z geometrycznego 
punktu widzenia — współrzędne punktu odpowiadającego „,środkowi cięż- 
kości”” zbiorowości punktów danej klasy. Na ogół przy regularnym rozkła- 
dzie punktów ich środek ciężkości istotnie najlepiej może je wszystkie za- 
stępować. Z drugiej strony proces uśredniania jest rutynowo stosowany do 
eliminacji skutków przypadkowych zakłóceń, zatem przyjmując wyobraże- 
niowo pewien model procesu artykulacji mowy możemy twierdzić, że opisa- 
ny sposób postępowania ;jest (przy przyjęciu podanych niżej założeń) zbli- 
żony do optymalnego. Model procesu artykulacji, do którego odwoływano 
się w ostatnim zdaniu, sprowadza się do przypuszczenia, że istnieją pewne 
wzorce idealnej artykulacji okreśłonych elementów sygnału mowy (na 
przykład poszczególnych fonemów). Każda rzeczywista realizacja procesu 
artykulacji, a więc każda' próbka zarejestrowanego sygnału mowy, stanowi 
niedoskonałą, zakłóconą próbę reprodukcji tego wzorca. Przyjmując (co 
jest zresztą bardzo wątpliwe), że zniekształcenia wzorca można rozważać 
jako dodawanie do sygnału o idealnych parametrach składowej losowej, 
której parametry mają zerową wartość oczekiwaną i ograniczoną wariancję, 
otrzymujemy model artykulacji, dla którego idealnym (optymalnym) spo- 
sobem odtworzenia zakłóconego wzorca wypowiedzi jest — właśnie uśred- 
nianie. Oczywiście proces uśredniania nie zawsze musi dostarczać „„wzorca” 
dla klasy, który będzie poprawnie ją reprezentował w procesie rozpoznawa- 
nia. Jeśli kształt obszaru, odpowiadającego rozważanej klasie elementów 
sygnału mowy, odbiega w przestrzeni parametrów od kuli (por. rys. 5-13), 
to wówczas położenie punktu środka ciężkości może być zupełnie przypad- 
kowe. Punkt o współrzędnych pochodzących z uśredniania nie może w ta- 
kim przypadku pełnić roli „wzorca” klasy, co jednak na ogół nie dyskwalifić 
kuje samej koncepcji zastąpienia wszystkich punktów ciągu uczącego przy 
rozpoznawaniu — ich skróconą reprezentacją. Na ogół jednak w przypad- 
kach, kiedy geometria obszarów w przestrzeni cech odbiega od kształtów 
zbliżonych do kuli, zachodzi potrzeba znalezienia dla każdej klasy kilku 
(a nie pojedynczego) reprezentatywnych wzorców. Istnieją i są opisane 
w literaturze metody określania liczby niezbędnych wzorców, a także spo- 
soby ich lokalizacji i wydzielania. 
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Opisane metody rozpoznawania: algorytm najbliższego sąsiada NN, w któ- 
rym rozważane są odległości nieznanego obiektu od wszystkich obiektów 
o znanej przynależności, i algorytm wykorzystujący pojęcie wyliczanego 
„wzorca” (lub „wzorców ) dla każdej klasy — opierają się na pojęciu 
odległości w przestrzeni cech. Pojęcie to było zresztą używane także wcześ- 
niej (por. rozdz. 5.4) i będzie przydatne także w dalszych rozważaniach. 
Warto więc teraz, przed skrótowym przedyskutowaniem przynajmniej nie- 
których metod rozpoznawania, nie wymagających odwoływania się do po- 


5-13, Element będący 
środkiem ciężkości 

obiektów ciągu 

uczącego może być 

używany jako wzorzec 

całej klasy jedynie dla 
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rozkład w przestrzeni Ś 
kształtów ma prosty 
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ciężkości leży poza 
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(większy trójkąt) 

i nie może pełnić roli a 
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jęcia odległości, poświęcić nieco uwagi zagadnieniu sposobu definiowania 
odległości w przestrzeni cech. Warto bowiem mieć świadomość związków, 
jakie istnieją między wyborem odpowiedniej metryki przestrzeni cech 
a własnościami omówionych wcześniej algorytmów rozpoznawania. Wszak 
nawet kształt kuli w przestrzeni cech jest zależny od przyjętej definicji od- 
ległości, a przy niektórych definicjach kształt ten może daleko odbiegać od 
znanego nam. Zatem dyskusja dotycząca przedmiotu przydatności lub 
nieprzydatności metody uśredniania do wyznaczania wzorców musiała być 
prowadzona z licznymi — dla prostoty pomijanymi wyżej —— zastrzeżeniami 
na temat używanego pojęcia odległości. Również efektywność algorytmów 
rozpoznawania może w zasadniczy sposób wiązać się z użytym pojęciem 
metryki. Nie jest bowiem obojętne, nawet przy stosowaniu największych 
i najszybszych komputerów, jakie działania arytmetyczne trzeba wykonać, 
żeby wyliczyć wartość odległości. Minimalne nawet oszczędności w definicji 
pojęcia odległości mogą dawać znaczące oszczędności w czasie obliczeń, 
skoro odległość musi być obliczana dla tysięcy punktów ciągu uczącego 
przy każdej próbie rozpoznawania. W tej sytuacji mikrosekundy oszczęd- 
ności na pojedynczym obiekcie mogą oznaczać całe minuty obliczeń dla 
całego zbioru danych i dla pełnego rozpoznania interesującej wypowiedzi. 

Przystępując do dyskusji pojęcia odległości w przestrzeni cech możemy na 
wstępie przedyskutować najczęściej stosowaną i z pozoru „oczywistą” 
miarę odległości Euklidesa. Przypomnijmy, że dla dwu obiektów X'* = 
= (x, xb, ..., x;) oraz XJ = (xi, x), ..., xi) ich odległość, oznaczana już 
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wcześniej d;, (por. p. 5.4), wyliczana jest przy zastosowaniu metryki eukli- 
desowej ze wzoru 


EE 
dy = V> (— xd)? (5.6) 
k=t 


Już pobieżna analiza przytoczonej formuły pozwala zauważyć jej wady. 
Po pierwsze operacja podnoszenia do kwadratu i następującego po niej 
wyciągania pierwiastka jest czasochłonna, czyli niedogodna obliczeniowo. 
Aby to zlikwidować, używa się niekiedy innej metryki, nazywanej „uliczną” 
(bo odpowiada ona odległości, jaką musi przebyć turysta w mieście o wyty- 
czonych równolegle i prostopadle ulicach, uniemożliwiających chodzenie na 
skróty od punktu X' do punktu X”). Metryka ta wiązana jest niekiedy z naz- 
wiskiem Hamminga ze względu na formalne podobieństwo z wprowadzoną 
przez tego badacza miarą odległości ciągów kodowych, służącą do badania 
nadmiarowości kodów i stopnia ich zabezpieczenia przed przekłamaniami. 
W metryce tej odległość punktów X' oraz X” wyraża się wzorem 
5 


+ + 
dy = 0 rę ze (5.7) 


kal 


Widać, że uciążliwe obliczeniowo operacje zostały w tej metryce niemal 
w całości wyeliminowane i zastąpione prostymi i szybko wykonywanymi 
działaniami. Warto przy tym zauważyć, że przyjęcie metryki danej wzorem 
(5.7) powoduje, że kulę w przestrzeni cech zastępuje sześcian. Może on 
niekiedy lepiej pasować do kształtów obszarów w przestrzeni cech, co może 
być (ale nie musi) dodatkową zaletą metryki (5.7). 

Obie przytoczone definicje odległości mają wspólną wadę. Jeśli zakres 
zmienności któregoś z rozważanych parametrów okaże się większy niż 
dla innego parametru, to odpowiednie składniki w sumie będą domino- 
wały nad pozostałymi, co szczególnie dotkliwie może dać się zauważyć we 
wzorze (5.6), ze względu na operację podnoszenia do kwadratu. Zwróćmy 
uwagę, że na przykład zakres zmienności trzeciego formantu jest znacznie 
większy niż odpowiedni zakres dla pierwszego formantu. Czyłi miara odleg- 
łości silniej będzie zależała od różnic w wartościach trzeciego formantu 
niż od różnic w wartościach formantu pierwszego. Analogicznie zakresy 
zmian momentów widmowych są większe od zakresu zmienności forman- 
tów — wartości momentów będą silniej wpływały na rozważane odleg- 
łości niż formanty. 

Wszystkie omówione zróżnicowania są odwrotne w stosunku do ten- 
dencji, jakie powinny mieć miejsce z punktu widzenia rzeczywistej waż- 
ności odpowiednich parametrów. Wszak formanty są generalnie bardziej 
wartościowe, z punktu widzenia identyfikacji elementów sygnału mowy, 
niż momenty widmowe, a wśród formantów pierwszy wnosi więcej informa- 
cji i jest ważniejszy niż trzeci. Wynika z tego, że celowe jest wprowadzenie 
poprawki do formuły (5.6) i (5.7), polegającej na wprowadzeniu współczyn- 
ników ,wagowych”, zróżnicowujących w pożądany sposób udział po- 
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szczególnych składników w odpowiednich sumach. Dokonując poprawek 
przechodzimy od metryk zwykłych do tzw. uogólnionych, których formuły 
są następujące: 


5 
dy, = Vy 22G4—)7 (5.8) 
k=l 


względnie 


kj 
d,= Ż; dy — xl 6.9) 
ksz] 
Współczynniki wagowe 44 mogą być dobrane tak, aby równe były odwrot- 
nościom zakresów zmienności poszczególnych cech (co odpowiada w istocie 
wstępnej normalizacji zakresów zmienności wszystkich cech do stałego 
przedziału [0,1]), względnie można w wartościach współczynników 4, za- 
wrzeć dodatkowo informację o względnej wartości czy też ważności po- 
szczególnych cech. Warto przy tym zauważyć, że zastosowanie wzorów 
(5.8) i (5.9) do opisu pojęcia odległości w przestrzeni cech prowadzi do dal- 
szej deformacji „kul”” w tej przestrzeni. Dla metryki (5.8) przybierają one 
formę hiperelipsoid o osiach równoległych do osi układu współrzędnych, 
a dla wzoru (5.9) mamy do czynienia z hiperrównoległościanami. 
Z punktu widzenia prostoty obliczeń i dobrych wyników „samonormali- 
zacji” poszczególnych cech dobre własności ma metryka Camberra: 
5 
leek— il 

dys ŻA (5.10) 
której charakterystyczne, ruchome kule łatwo na ogół dopasowują się do 
rzeczywistych kształtów obszarów poszczególnych mikrofonemów w przy- 
jętej przestrzeni cech. Badania nad rozpoznawaniem ograniczonego zbioru 
elementów mowy potwierdziły przydatność metryki (5,10) do opisu obsza- 
rów w tej przestrzeni. 
Wszystkim rozważanym metrykom można postawić dodatkowo jeden za- 
rzut. Otóż metryka euklidesowa opiera się de facto na twierdzeniu Pitago- 
rasa, przeto może być wykorzystywana do układów współrzędnych, których 
osie są prostopadłe. Tymczasem układ współrzędnych zaproponowanej 
przestrzeni pięciowymiarowej nie jest prostokątny. Na pozór wydaje się, 
że jest to kwestia zupełnie dowolnej decyzji, czy zbuduje się układ współ- 
rzędnych prostokątny, czy dowolny inny. Tymczasem sprawa nie jest taka 
prosta. Ortogonalny (prostokątny) układ współrzędnych może służyć do 
odkładania wartości całkowicie niezależnych parametrów. Natomiast rze- 
czywiste parametry opisujące sygnał mowy są że sobą skorelowane. Jest to 
logiczne. Na przykład, formanty nie mogą być niezależne, skoro wszystkie 
razem są kszta t- vane w tym samym procesie artykulacji przez ruchy tych 
samych narządów mowy i przez współdziałanie jednego zespołu wnęk rezo- 
nansowych. Analogiczne rozważania można przeprowadzić dla momentów 
widmowych, wykazując ich wzajemne powiązania oraz związki (słabsze na 
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ogół) pomiędzy grupą parametrów formantowych i momentami. Innymi 
słowy w sensie statystycznym wszystkie parametry opisujące sygnał mowy 
są ze sobą powiązane. Skoro tak, to po wybraniu dowolnego spośród zes- 
połu pięciu wytypowanych parametrów, można próbować oszacowywać 
jego wartości z równania regresji, będącego liniową kombinacją pozosta- 
łych parametrów. Jeśli jednak wybrany parametr może być (w przybliżeniu, 
co prawda) przedstawiony jako liniowa kombinacja pozostałych, to geo- 
metrycznie fakt ten interpretując leży on na płaszczyźnie (dokładniej — 
w podprzestrzeni liniowej) wyznaczonej przez te parametry. A to oznacza, 
że nie powinniśmy wskazanego parametru odkładać na osi prostopadłej, do 
pozostałych parametrów, wszak leży on nieomal w ich płaszczyźnie! Powta- 
rzając podobne rozumowanie dla wszystkich parametrów upewniamy się, że 
układ współrzędnych naszej przestrzeni jest nieortogonalny, skośnokątny. 
Nie wolno więc stosować metryk opartych na twierdzeniu Pitagorasa. 
Właściwym rozwiązaniem jest stosowanie metryki Mahalanobisa, w której 
wykorzystuje się macierz kowariancji cech S dla korekty efektów skośności 
układu współrzędnych. Odpowiedni wzór jest następujący: 


d,, = (XF -XI)YTST1(X — X) 6.11) 


gdzie dla uproszczenia zapisu wykorzystano notację wektorowo-macierzo- 
wą: $7! oznacza macierz odwrotną do macierzy kowariancji cech $, odej- 
mowanie należy traktować jako odejmowania wektorowe, 7 oznacza zaś 
transpozycję (macierzy lub wektora). Można łatwo wykazać, że forma 
kwadratowa dana wzorem (5.11) jest zawsze dodatnia z wyjątkiem przy- 
padku X' = X", kiedy przyjmuje wartość zero. Może zatem być użyta jako 
miara odległości w przestrzeni cech. Trudniej udowodnić inne prawdziwe 
własności metryki (5.11). Między innymi pożądaną z punktu widzenia za- 
dań rozpoznawania mowy własność dekorelacji cech. W uproszczeniu moż- 
na więc przyjąć, że odległość liczona ze wzoru (5.11) odpowiada odległości 
euklidesowej („uagólnionej” zgodnie ze wzorem (5.9)) w zdekorelowanej, 
„wyprostowanej” przestrzeni cech, W dodatku „„kule”, zadane miarą odleg- 
łości (5.11) mają szczególnie korzystny kształt: są to hiperelipsoidy, któ- 
rych rozmiary i kierunek przestrzennej orientacji osi są zgodne z kształtami, 
jakie w przestrzeni cech przyjmują obszary odpowiadające poszczególnym 
klasom. Te korzystne własności okupione są jednak dużą złożonością obli- 
czeniową wzoru (5.11). Nakład pracy związany z obliczeniami według re- 
guły (5.11) jest bez porównania większy niż przy uprzednio wprowadzanych 
metrykach, a w dodatku operacja odwracania macierzy kowariancji S$ bywa 
uciążliwa obliczeniowo ze względu na bliski zera wyznacznik główny. 

W sumie więc większość badaczy docenia zalety metryki Mahalanobisa 
„teoretycznie” : chwali ją w publikacjach i nie stosuje w praktyce. 

W uzupełnieniu dyskusji grupy metod rozpoznawania, w których podstawą 
procesu rozpoznawania jest wyliczanie odległości od nieznanego, rozpozna- 
wanego obiektu do wszystkich, lub tylko niektórych, wybranych obiektów 
ciągu uczącego, warto odnotować jeszcze jedną zaletę zaproponowanych 
w poprzednim podrozdziale mikrofonemów. Otóż w niektórych metodach 
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grupowania, wykorzystywanych do tworzenia skupień będących wzorcami 
mikrofonemów, obok innych możliwości wyliczane są także „centroidy” 
wszystkich rozważanych klas, co zasadniczo ułatwia stosowanie algorytmów 
rozpoznawania, odwołujących się do tych uogólnionych wzorców kłas. 
W ten sposób, wykorzystując mikrofonemy, możemy swobodnie wykorzy- 
stywać zalety metod opartych na podejściu „minimalnoodległościowym”* 
bez konieczności akceptowania ich największej wady, wiążącej się z dużym 
zajęciem pamięci oraz długim czasem liczenia. 

Wady metod minimalnoodległościowych mogą być ominięte także i na 
innej zasadzie. Obszerna grupa dyskutowanych w literaturze metod roz- 
poznawania odwołuje się do pojęcia tak zwanych funkcji przynależności. 
Postuluje się w tych metodach — stosując rozmaite nazewnictwo, różną 
notację i zróżnicowane algorytmy obliczeniowe — właściwie stale podobną 
koncepcję. Oto najważniejsze, typowo występujące jej elementy. Niech 
istnieje L funkcji argumentu wektorowego X 


g(X) = DC "w; i=1,2,..,L (5.12) 
k 


gdzie funkcje o, stanowią odpowiednio dobraną rodzinę funkcji wektoro- 
wych (o jej doborze będzie jeszcze dalej mowa), współczynniki zaś wagowe 
w(i) różnicują poszczególne funkcje g;,(X) i są ustalane na podstawie ciągu 
uczącego w procesie iteracyjnym, nazywanym zwykle uczeniem. Podstawowe 
założenie i zasadniczy wymóg, jaki można postawić funkcjom g,(X), jest 
następujący. Jeśli wektor X jest wektorem parametrów (cech) obiektu na- 
leżącego do pewnej ustalonej klasy n, to wówczas funkcja g„(X) przyjmuje 
w punkcie X wartości większe niż wszystkie inne funkcje g;(X) dla i 4 n. 
Wynika z tego prosta reguła rozpoznawania, oparta na wartościach funkcji 
g:(X). Jeśli mamy rozpoznać nieznany fragment sygnału mowy, to po okreś- 
leniu dla niego wszystkich parametrów i skompletowaniu wektora X oblicza 
się wartości wszystkich funkcji g;(X), g-(%), ..., gn(X), gdzie L jest liczbą 
rozpoznawanych klas. Jedna z tych wartości będzie większa od pozostałych, 
załóżmy, że jest to wartość dla numeru n: 

gA)>2gl(X) i=1,2,..,L (5.13) 
W takim przypadku poprawne rozpoznanie odpowiadać będzie klasie n, co 
oznacza, że przy podejmowaniu decyzji wystarczy kontrolować, która 
z funkcji g;(X) przyjmuje wartość największą, a rozpoznanie utożsamiać 
z numerem klasy, której funkcja jest większa od pozostałych. Ze względu na 
swoje własności funkcje g;(X) są nazywane funkcjami przynależności, po- 
nieważ ich wartości określają stopień przynależności nieznanego obiektu X 
do odpowiednich klas i. Naturalne jest przy tym rozpoznanie tej klasy, dla 
której wspomniany stopień przynależności okaże się największy. 
Przytoczony sposób sformułowania zadania rozpoznawania przesuwa śro- 
dek ciężkości problemu ze sfery podejmowania decyzji do sfery obliczeń 
arytmetycznych, co jest korzystne z punktu widzenia realizacji tego zadania 
z wykorzystaniem elektronicznej maszyny cyfrowej. Równocześnie jednak 
pojawia się problem zbudowania funkcji przynależności g;(X) w ten spo- 
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sób, aby mogły spełniać swoje zadanie zgodnie ze sformułowanymi wyżej 
postulatami. Kłopot polega przy tym na braku jakiejkolwiek konkretnej 
informac na temat kształtu i przebiegu poszukiwanych funkcji g;(X), gdyż 
jedyna informacja, jaką dysponuje badacz, zawarta jest w ciągu uczącym, 
to znaczy w zbiorze wybranych obiektów, dla których znane są zarówno 
charakteryzujące je parametry (składowe wektora X), jak i poprawna przy- 
należność (numer klasy, do której obiekty te należą). Zwróćmy uwagę, że 
mimo pewnych podobieństw zadanie tu sformułowane jest odmienne od 
zadania aproksymacji funkcji. W zadaniach aproksymacji funkcji znane mu- 
szą być w wybranych punktach zarówno argumenty (w naszym przypadku 
wektor X), jak i wartości funkcji. Wówczas można zastosować liczne znane 
i bardzo efektywne obliczeniowo metody aproksymacji — na przykład me- 
todę najmniejszych kwadratów, wzmiankowaną wyżej przy metodach li- 
niowej predykcji (por. p. 4.5). Niestety jednak w zadaniu rozpoznawania 
w ustalonych punktach znane są jedynie relacje między wartościami funkcji 
przynależności, a nie same wartości. Istotnie, jeśli wiemy, że dla obiektu 
opisanego wektorem X właściwe rozpoznanie odpowiada klasie n, wówczas 
jedyny wniosek, jaki z faktu tego można wyciągnąć, ma postać zbioru nie- 
równości typu (5.13), określających stosunki między wartościami funkcji 
przynależności — ale nie same wartości. 

Metoda postępowania, która gwarantuje rozwiązanie postawionego zadania, 
jest następująca. W pierwszym kroku zakłada się, że funkcje przynależności 
można przedstawić w postaci rozwinięcia na szereg, z ustalonym zbiorem 
funkcji bazowych g,(X). Funkcje ox są jednakowe we wszystkich funkcjach 
przynależności dla wszystkich klas i, natomiast współczynniki rozwinięcia wą 
są zależne od tego, do której klasy ma być stwierdzona przynależność przy 
wykorzystaniu danej funkcji, co we wzorze (5.12) odnotowano formalnie 
zapisując je jako w(i). 

Takie postawienie zadania stwarza podwójnie dogodną sytuację. Po pierw- 
sze, proces uczenia polegający na formowaniu funkcji przynależności dla 
poszczególnych klas sprowadza się dzięki takiemu postawieniu sprawy do 
określenia zbioru wartości współczynników w(i) dla każdej klasy — a to 
jest zadanie prostsze. Po drugie, zadanie zgromadzenia w pamięci komputera 
wyników procesu nauczania jest tanie, przy podanym sposobie budowy 
funkcji przynależności. W rezultacie procesu uczenia określone zostają 
wartości wszystkich współczynników wz(i) dla wszystkich k oraz dla wszyst- 
kich i. Na ogół objętość pamięci potrzebna do zapamiętania wartości tych 
współczynników jest niewielka, o wiele mniejsza od objętości wymaganej 
przy metodach minimalnoodległościowych, a ponadto objętość ta jest stała, 
niezależnie od liczby obiektów ciągu uczącego, branych pod uwagę w trakcie 
procesu uczenia. 

Podstawową sprawą do dalszych rozważań jest zakres sumowania (prze- 
dział wartości, w obrębie którego zmienia się k) w rozwinięciu danym wzo- 
rem (5.12). Z jednej strony korzystne jest, aby zakres ten był możliwie mały. 
Dzięki temu zmniejsza się objętość pamięci koniecznej do zapamiętania 
współczynników w;y(i), a także upraszczają się i przyspieszają obliczenia. 
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Z drugiej jednak korzystne jest, aby ten zakres był duży, istnieją bowiem 
teoretyczne przesłanki do tego, aby sądzić, że prawdopodobieństwo po- 
prawnego rozpoznawania będzie rosło ze wzrostem zakresu sumowania we 
wzorze (5.12). Uzasadnienie tej tezy jest dość złożone, jeśli wymagany jest 
dowód formalny. Intuicyjnie jednak jest to dość oczywiste. Jeżeli wzór (5.12) 
będziemy traktować jako przybliżenie za pomocą rozwinięcia na szereg nie- 
znanej funkcji g;(X), to oczywiste jest, że przybliżenie to jest tym dokładniej- 
sze, im więcej członów rozwinięcia branych jest pod uwagę, zatem jakość 
wypełniania przez funkcję g;(X) roli funkcji przynależności zależna jest od 
liczby składników sumy. Można przypuszczać, biorąc pod uwagę teorię 
rozwinięć funkcyjnych, że najlepsze wyniki osiągnie się przy nieskończonym 
przedziale zmienności k, co jest jednak w sposób oczywisty nie do przyjęcia 
w praktyce. Sprzeczność, występującą między interesem sprawności obli- 
czeniowej a wymogami dokładności rozpoznawania, można częściowo go- 
dzić dobierając odpowiednio rodzinę funkcji gy(X). Gdyby na przykład 
przez odpowiedni dobór funkcji p,(X) można było zapewnić warunek 
wz(i) = 0 dla wszystkich i oraz dla wszystkich k > m, gdzie m jest ustaloną, 
dostatecznie małą liczbą, to wówczas pogodzenie warunków dokładności 
i efektywności byłoby proste. Jak jednak tego dokonać, skoro o podlega- 
jących aproksymacji funkcjach g;,(X) prawie nic nie wiadomo? Istotnie, 
problem wyboru funkcji bazowych gz(X) do łatwych nie należy, szczególnie 
dlatego, że muszą to być funkcje argumentu wektorowego. Znane z porad- 
ników i podręczników rodziny funkcji używanych w rozwinięciach na szere- 
gi są zwykle opracowywane dła argumentów skalarnych (funkcje trygono- 
metryczne, wielomiany Czebyszewa itp.). 

Pozostawiając dyskusję konkretnych metod doboru własności funkcji bazo- 
wych gx(X) dla konkretnych zadań rozpoznawania do ewentualnych samo- 
dzielnych studiów Czytelników (odpowiednie pozycje literatury cytowane 
są na końcu książki) przedstawimy teraz kilka interesujących z teoretycznego 
punktu widzenia i przydatnych praktycznie rodzin funkcji pz(X). Niewątpli- 
wie najczęściej dyskutowany w literaturze, najbardziej przydatny z dydak- 
tycznego punktu widzenia i wysoce użyteczny praktycznie jest przypadek 
funkcji liniowej. Poszczególne funkcje qx(X) są w tym przypadku równe 
kolejnym składowym wektora X, całe równanie (5.12) zaś przyjmuje uprosz- 
czoną postać: 


5 
gUX) = ) w.) + wo(i) (5.14) 
k=i 


Przyjęcie funkcji o tej postaci oznacza, że obszary odpowiadające po- 
szczególnym klasom w przestrzeni cech rozgraniczane będą hiperpłaszczyz- 
nami, Istotnie, rozważając dowolne dwie klasy: i oraz j możemy stwierdzić, 
że w pobliżu granicy rozdzielającej ich obszary w przestrzeni cech podejmuje 
się decyzje o rozpoznaniu obiektu klasy i, gdy g;(X) > g;(X), decyzję zaś 
o przynależności do klasy j podejmuje się przy g;(X) > g;(X). Równanie 
powierzchni rozgraniczającej te dwa obszary ma więc postać: 


s(X)-g,(X) = 0 (5.15) 
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a po uwzględnieniu postaci funkcji przynależności danej wzorem (5.14) 
równanie powierzchni granicznej staje się równaniem hiperpłaszczyzny 


5 
2 tw; wDIXx+ wo) —wo(G0] = 0 (5.16) 
k=l 


Oznacza to, że przydatność rozważanej metody ograniczona jest do przy- 
padku, kiedy topografia obszarów w przestrzeni cech pozwala na ich roz- 
graniczanie hiperpłaszczyznami. Położenie tych hiperpłaszczyzn zależne jest 
od wartości współczynników wy(i) oraz wy(j). Zatem opisany iteracyjny 
proces „uczenia” zmierzający do ustalenia optymalnych wartości współ- 
czynników wagowych wz dla poszczególnych klas traktowany być może 
jako przesuwanie i obracanie hiperpłaszczyzn granicznych w ten sposób, 
aby umieścić je dokładnie w lukach między obszarami poszczególnych klas. 
Jeśli to jest tylko możliwe (jeśli pomiędzy obszarami klas da się zmieścić 
hiperpłaszczyznę), proces uczenia doprowadzi do takiego ustawienia gra- 
nicznej powierzchni, aby separacja dokonywana była w sposób doskonały, 
przynajmniej dla dostępnych danych z ciągu uczącego. Jeśli graniczna po- 
wierzchnia ma kształt bardziej złożony i nie może być sensownie przybli- 
żona hiperpłaszczyzną, to proces uczenia prowadzi do takiego ustawienia 
granicy, aby błędy wynikające z niedopasowania kształtu brzegów obszarów 
i rozgradzającej je hiperpłaszczyzny były minimalne. 

Jak wynika z przytoczonych uwag, kluczową rolę dla całego rozpoznawania 
ma w omawianej grupie metod proces uczenia. Zasada tego uczenia jest 
zaskakująco prosta, a efekty -—— nadspodziewanie dobre. Przypomnijmy, 
że podstawą procesu uczenia jest ciąg uczący, to znaczy zbiór obiektów, dla 
których znana jest poprawna ich klasyfikacja. Zapiszmy ciąg uczący jako 
zbiór par: 


U= KA"iD,n =1,2,...,N) (5.17) 


gdzie X" jest wektorem cech n-tego obiektu, a i" -— numerem klasy, do której 
obiekt ten należy. Wówczas regułę uczenia można zapisać w sposób następu- 


jący: 


w(i”) = w.i)+x k=1,..,5 (5.18) 
Wwo(i”) = wo(i”) +1 (5.19) 
w.) = ww k=1,..,5 (5.20) 
Wo(j”) = Wo(j”) — 1 (5.21) 


Powyższe zapisy należy traktować podobnie jak instrukcje podstawienia 
w językach programowania, a nie jak równania, To znaczy, że odpowiednie 
wartości po prawej stronie znaku równości traktować należy jako wartości 
przed dokonaniem korekty, wynikającej z pokazania n-tego obiektu ciągu 
uczącego, a te same wartości po lewej stronie znaku równości odpowiadają 
wartościom skorygowanym, po dokonaniu elementarnego kroku procesu 
uczenia. Formalnie wartości te należało rozróżniać, pisząc na przykład znak 
„prim” (wy(i”) = wy(i') i tak dalej), zaniechano jednak tego, aby nie kom- 
plikować i tak złożonego zapisu. 
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Przy analizie wzorów (5.18) - (5.21) kluczowe jest ustalenie znaczenia nu- 
meru kłasy j”. Opisowo można stwierdzić, że jest to ten numer klasy, który 
byłby wskazany jako rozpoznany, gdyby rozpoznawanie powierzono „„nie- 
nauczonej” procedurze. Dokładniej można powiedzieć w sposób następu- 
jący: w momencie pokazywania n-tego obiektu ciągu uczącego procedura 
rozpoznająca ma już zapamiętane wszystkie wartości współczynników wy(i) 
— chociaż są to wartości niedokładne, jako że proces uczenia jeszcze trwa. 
Jeśli jednak obliczyć, posługując się wzorem (5.14) i tymi niedokładnymi 
wartościami współczynników wx, wartości funkcji przynależności, to wów- 
czas jedna z nich będzie miała największą wartość i zgodnie z regułą (5.13) 
byłaby podana jako rozwiązanie — gdyby to był etap roboczego rozpozna- 
wania, a nie jeszcze uczenie. Ten właśnie numer klasy, który byłby rozpozna- 
ny przez „niedouczoną”” procedurę dla obiektu pokazanego na n-tym kroku 
procesu uczenia, oznaczono j”. Oczywiście gyr(X”) > g;(X") dła wszystkich i, 
a ponadto na ogół j” z* i”, gdyż niedouczona procedura popełnia błędy. 
Jak widać ze wzorów (5.18) -- (5.21), istota procesu uczenia polega na tym, 
że zwiększane są współczynniki wagowe tej klasy, która powinna była być 
rozpoznana (wzory (5.18) i (5.19)), zmniejszane są zaś współczynniki dla tej 
klasy, która została omyłkowo rozpoznana (wzory (5.20) i (5.21)). Warto 
zauważyć, że w przypadku, kiedy zaproponowane przez procedurę rozpozna- 
jącą prowizoryczne” rozpoznanie jest poprawne (j” = i"), korekty dane 
wzorami (5.18) i (5.19) oraz (5.20) i (5.21) znoszą się wzajemnie. W rezultacie 
wartości współczynników w;(i) pozostają nie zmienione. 

Fakt biernego reagowania procedury uczącej na poprawnie klasyfikowane 
obiekty ciągu uczącego bywa wykorzystywany do określania momentu 
zatrzymania procesu uczenia. Istotnie, jeśli obserwując proces uczenia wi- 
dzimy, że kolejne obiekty nie wywołują zmian wartości współczynników 
w(i) — czyli prowizoryczne klasyfikacje okazują się prawidłowe — to 
możemy przypuszczać, że klasyfikacja będzie poprawna także i dla innych 
obiektów. Przypuszczenie takie jest tym bardziej wiarygodne, im więcej 
bezbłędnych rozpoznań zaobserwujemy. Jednak z podjęciem decyzji o za- 
przestaniu procesu uczenia nie można czekać w nieskończoność, bo zużywa 
się bezproduktywnie czas wykorzystywanego komputera. Konieczna jest 
więc kompromisowa decyzja — po iłu poprawnie sklasyfikowanych obiek- 
tach ciągu uczącego można już uznać, że procedura jest zadowalająco nau- 
czona? W literaturze pojawiają się teoretyczne oszacowania — bądź oparte 
na analizie zbieżności procesu uczenia, bądź na wnioskowaniu typu sta- 
tystycznego. W pierwszym przypadku wykorzystuje się wniosek z twierdze- 
nia o silnej zbieżności (w skończonej liczbie kroków) procesu uczenia zada- 
nego wzorami (5.18) -- (5.20). W dowodzie tego twierdzenia wyznacza się 
formułę określającą maksymalną liczbę możliwych pokazów, przy których 
mogą wystąpić błędy. W drugim podejściu można oszacować prawdopodo- 
bieństwo popełnienia omyłki przy podejmowaniu decyzji o przerwaniu 
uczenia. Jedno i drugie podejście jest jednak niepraktyczne, gdyż wyliczone 
ilości pokazów są bardzo duże, znacznie większe od rzeczywiście niezbęd- 
nych. Praktyczne podejście może być więc zaproponowane w następującej 
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postaci. Ciąg uczący jest ograniczony, a operacje zadawane wzorami (5.18) 
i (5.21) są dość proste. Celowe jest więc pokazywanie ciągu uczącego cyklicz- 
nie: po pokazaniu (i wykorzystaniu do celów nauki) ostatniego obiektu, 
można ponownie pokazać pierwszy obiekt — gdyż wcale nie ma gwarancji, 
że po korektach współczynników wy(i) danych omawianym zespołem wzo- 
rów, wszystkie pokazane obiekty będą już prawidłowo rozpoznawane, 
a w dodatku poprawiając rozpoznania jednych obiektów można psuć roz- 
poznania innych. Przy cyklicznym pokazywaniu ciągu uczącego warunek 
zaprzestania uczenia jest trywialny. Można przerwać uczenie, jeżeli pra- 
widłowo sklasyfikowany jest cały jeden zbiór obiektów, a więc w rezultacie 
wszystkie dostępne obiekty ciągu uczącego. Oczywiście takiego rezultatu 
można niekiedy w ogóle nie osiągnąć — w przypadku kiedy granice między 
obszarami poszczególnych klas nie mogą być hiperpłaszczyznami. Wówczas 
proces uczenia musi być przerwany pomimo wciąż pojawiających się błędów 
przy klasyfikacji obiektów ciągu uczącego, przy czym użyć trzeba dodatko- 
wego kryterium — na przykład licznika „obiegów” przy cyklicznym prze- 
glądaniu ciągu uczącego. 

Równania (5.18) -- (5,21) jako metoda uczenia, równanie (5.14) jako kry- 
terium podejmowania decyzji oraz przytoczone wyjaśnienia dotyczące reguł 
stosowania wzorów (5.18)-- (5.21) do ciągu uczącego (5.17) kończą w za- 
sadzie opis jednej ze skuteczniejszych metod rozpoznawania — metody 
funkcji liniowych. Warunkowy tryb ostatniego zdania wynikał z faktu, że 
pominięto (celowo) drobny szczegół procesu uczenia, który wart jest, aby 
go teraz dodatkowo omówić. Otóż reguły dane wzorami (5.18) -- (5.21) po- 
dają sposób poprawiania wartości współczynników w(i) w trakcie procesu 
uczenia. Od czego jednak zacząć, to znaczy, jakie wartości ma mieć zbiór 
współczynników wy(i) dla wszystkich k oraz wszystkich i — przed pokaza- 
niem pierwszego obiektu ciągu uczącego? Że trzeba tu arbitralnie przyjąć 
pewne wartości — to jest oczywiste. Wymaga tego zarówno postać równań 
(5.18) - (5.21) — w których dła n = 1 również po prawej stronie wystąpić 
muszą „,poprzednie” wartości wz(i), a także pragmatyka procesu uczenia, 
w którym muszą być podejmowane „prowizoryczne” próby rozpoznawa- 
nia, dzięki którym określa się wartości numeru „błędnej” klasy j" (w roz- 
ważanym przypadku ——j*). Wybór wartości wy(i) dla k =0,1,...,5 oraz 
i=1,2,..., Ł może być dowolny. Odpowiednie twierdzenia w teorii ucze- 
nia maszyn rozpoznawania obrazów wskazują, że przy dowolnym wyborze 
wartości wz(i) w momencie rozpoczęcia uczenia możliwe jest osiągnięcie 
docelowego, optymalnego zestawu parametrów, po odpowiednio długim 
procesie uczenia. W praktyce jednak nie jest obojętne, jakie wartości po- 
czątkowe zostaną wybrane, gdyż długość procesu uczenia może zależeć od 
tego wyboru w sposób zasadniczy. Z tego względu należy starać się wybierać 
wartości w(i) w chwili początkowej możliwie bliskie wartościom oczeki- 
wanym jako docelowe, korzystne jest tu bowiem wykorzystanie każdej po- 
siadanej a priori przesłanki. Przykładowo, jeśli wiadomo, że dana głoska, 
której funkcję przynależności rozważamy, charakteryzuje się dużą średnią 
częstotliwością (przykładowo może to dotyczyć głoski s), wówczas współ- 
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czynnik w, dla danej głoski (stojący przy pierwszym momencie widmowym, 
zgodnie z przyjętą numeracją wektora cech) należy wybrać duży i dodatni. 
Oczywiście tego typu decyzje są zawsze przybliżone, a ich wynik nie ma 
zastąpić procesu uczenia, lecz jedynie go przyspieszyć. Jednak wykorzysta- 
nie podobnych sugestii jest prawie zawsze celowe. W przypadku braku roz- 
sądnych przesłanek dla innego wyboru celowe jest przyjmowanie wartości 
w,(i) równych zeru. 

Jak wspomniano, przypadek funkcji postaci (5.14) rozważać trzeba jako 
przypadek szczególny ogólniejszej formuły (5.12). Zakładając, że funk- 
cje p,(X) zapewniają spełnienie warunku w,(i) = O dla wszystkich i = 
= |, 2,...,£Ł, w przypadku k > m, można zapisać 


si(X) =) pX) wi) (5.22) 
k=l 


Przyjęcie wzoru (5.22) w ogólnym przypadku zwiększa szanse na poprawne 
rozpoznawanie, jednak powstaje przy tym problem, jak prowadzić w takim 
przypadku proces uczenia, w celu ustalenia wartości współczynników wy(i). 
Zadanie to staje się prostsze przy zauważeniu możliwości przedstawienia 
formuły (5.22) jako złożenia przekształcenia przestrzeni cech X w nową 
przestrzeń wektorów Y zgodnie ze wzorami 


Jx= PX) k=1,2,..,m (5.23) 
oraz funkcji liniowej postaci 


skX) = Ż,0) = )) wili)yi (5.24) 
kai 
Dla funkcji (5.24) reguła uczenia jest prosta i oczywista: 
WG =w(D+y: k=l,..,m (5.25) 
w()= w) k=l,..,m (5.26) 


gdzie yę = pu(X”). 

Warto zwrócić uwagę na pewną interpretację przekształcenia (5.23). Otóż 
funkcje przynależności postaci (5.22) stosuje się w przypadku, gdy granice 
między obszarami poszczególnych klas są w przestrzeni cech zbyt złożone, 
by można je było przybliżać hiperpłaszczyznami (5.16). Przekształcenie 
(5.23) sprawia jednak, że w przestrzeni wektorów Y (m-wymiarowej) możli- 
we jest stosowanie formuły (5.24) — sprowadzającej granice ponownie do 
hiperpłaszczyzn — w dodatku przechodzących przez początek układu współ- 
rzędnych w przestrzeni Y. Ze względu na tę interpretację przestrzeń Y bywa 
nazywana przestrzenią prostującą, a przekształcenie (5.23) -— przekształce- 
niem prostującym, gdyż w przestrzeni po transformacie (5.23) krzywolinio- 
we uprzednio granice stają się proste. Interpretacja ta może być wykorzysta- 
na do oceny przydatności określonej rodziny funkcji qgy(X) we wzorze (5.22). 
Najczęściej stosowane funkcje (X) mają postać wielomianów 


k , 
(X) = Ve, | x (5.27) 
vz0  u=l 
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można jednak rozważać celowość użycia funkcji p,(X) dowolnej innej pos- 
taci. 


Klasa funkcji przynależności opisana wzorem (5.22) jest potencjalnie bardzo 
duża. Zalety omówionej metody, polegające głównie na małych wymaganiach 
pamięciowych (trzeba rezerwować pamięć jedynie dla Z * m współczynników 
w;(i) niezależnie od liczby elementów ciągu uczącego N), wskazują na celo- 
wość brania pod uwagę omówionych metod w zadaniach rozpoznawania 
mowy — także i z tego powodu, że dotychczasowe prace z tej dziedziny stro- 
niły od omawianego podejścia. Jednak dła kompletności rozważań przyta- 
czanych w tym podrozdziale celowe jest wzmiankowanie o jeszcze jednej gru- 
pie metod. Mowa o tak zwanym podejściu probabilistycznym, którego algo- 
rytmy nazywane bywają także Bayesowskimi (ze względu na wykorzysty- 
wany wzór opisujący prawdopodobieństwo a posteriori) względnie znane są 
pod nazwą analizy dyskryminacyjnej. Istota wspomnianych metod polega 
na wykorzystaniu w procesie rozpoznawania informacji statystycznych do- 
tyczących rozpoznawanych obiektów i służących do rozpoznawania cech. 
Warto od razu podkreślić, że sens stosowania omawianej teraz grupy metod 
ograniczony jest do przypadku, kiedy wspomniane informacje statystyczne 
są dostępne i określone, zanim przystąpi się do prób rozpoznawania, Formu- 
łowane niekiedy w literaturze przypuszczenia, że ewentualnie brakującą 
informację statystyczną można estymować na podstawie ciągu uczącego, 
dowodzą nieznajomości problemu. Wymagane w metodach Bayesowskich 
informacje statystyczne są tego rodzaju, że dla ich poprawnego określenia 
niezbędne są tysiące dobrze opracowanych obserwacji. Zakładanie, że od- 
powiednie parametry zbierze się „przy okazji”, prowadzi do bardzo praco- 
chłonnych programów lub do bardzo miernych efektów rozpoznawania — 
często zresztą „osiąga się” obydwa wymienione niekorzystne skutki. 
Nie należy jednak metod probabilistycznych pochopnie odrzucać. W bada- 
niach nad sygnałem mowy i jego parametrycznym opisem zebrano duży 
materiał statystyczny, porządnie opracowany i zamieszczony w dziesiątkach 
opracowań raportów i publikacji. Gdyby to bogactwo danych zebrać, 
uporządkować, uzupełnić i powtórnie opracować — powstałaby bardzo 
użyteczna baza wiedzy nad wyraz przydatna przy rozpoznawaniu. Chwilowo 
jednak potrzebne informacje są niekompletne i rozproszone, co pozwala na 
podejmowanie jedynie ograniczonych prób stosowania probabilistycznych 
metod — z dość miernymi skutkami. 
A oto podstawowe wiadomości na temat dyskutowanego podejścia i stoso- 
wanych w nim metod. Podstawę, jak wspomniano, stanowią dane statys- 
tyczne. Potrzebne są mianowicie prawdopodobieństwa występowania po- 
szczególnych (podlegających rozpoznawaniu) klas: 

po i=1,2,..,L (5.28) 
Te są z reguły łatwe do uzyskania (por. na przykład przytoczoną w rozdz. 4 
tabl. 2, dostarczającą potrzebnych wartości prawdopodobieństw dla fone- 
mów). Trudniej natomiast określić inne niezbędne dane, a mianowicie wa- 
runkowe gęstości prawdopodobieństwa występowania wektorów cech X 
dla poszczególnych klas i 


240 


RQ) i=1,2,..,L (5.29) 
Zauważmy, że funkcje /;(X) muszą być dane w całej przestrzeni cech, co 
wyklucza dogodne i łatwo dostępne ujęcie numeryczne. Równocześnie przy 
zakładanej w książce strukturze przestrzeni cech oraz przy wybranym zbio- 
rze rozpoznawanych obiektów wymaganie dane wzorem (5.29) oznacza 
konieczność określenia ponad stu funkcji pięciu zmiennych — co jest w 
w ogólnym przypadku zadaniem bardzo trudnym. Zadanie to dodatkowo 
komplikuje fakt, że poszczególne składowe wektora X są skorelowane. 
Wyklucza to produktową technikę tworzenia wielowymiarowego rozkładu 
z rozkładów jednowymiarowych. W dodatku łatwo sprawdzić, że rozkłady 
(5.29) nie powinny być aproksymowane znanymi i łatwymi w użyciu roz- 
kładami teoretycznymi. W szczególności rutynowy zabieg, jaki stosują 
autorzy podręczników rozpoznawania obrazów, polegający na założeniu 
normalnej postaci rozkładów (5.29) i sprowadzeniu całego problemu do 
prostszej obliczeniowo problematyki wyznaczenia parametrów rozkładu 
(wektorów Średnich i macierzy kowariancji) — nie potwierdza w praktyce 
swojej przydatności. W większości interesujących przypadków z zakresu 
rozpoznawania mowy rozkłady (5.29) nie są normalne, a co więcej w wielu 
przypadkach można wykazać ich nieunimodalność. W sumie —- wyznacze- 
nie funkcji /;(X) jest na tyle złożone, że przydatność omówionej niżej proce- 
dury rozpoznawania może być rozważana jedynie pod warunkiem posiada- 
nia niezbędnej apriorycznej wiedzy statystycznej — bez konieczności jej 
pozyskiwania wyłącznie do rozpoznawania. 

Jeśli jednak pominąć wskazane niedogodności z pozyskaniem danych po- 
czątkowych, to metody probabiłistyczne można ocenić bardzo pozytywnie. 
Po pierwsze, można udowodnić, że metody te są optymalne z punktu widze- 
niawielkości strat ponoszonych na skutek błędów w procesie rozpoznawania. 
Z tego powodu klasyfikator Bayesowski jest nazywany optymalnym i sto- 
sowany jako „punkt odniesienia”” przy ocenie innych algorytmów rozpozna 
wania. Po drugie, proces rozpoznawania jest prosty i szybki, a uczenia może 
wcale nie być-— z oczywistą korzyścią dla prostoty budowy i strojenia 
aparatury rozpoznającej. Po trzecie, istnieje teoretyczna możliwość „uczula- 
nia” algorytmu rozpoznającego, opartego na metodzie probabilistycznej, 
na pewne konkretne rozróżnienia. Można bowiem założyć „ceny” różnego 
rodzaju błędów, oczywiście wyższe tam, gdzie pomyłka jest bardziej dotkliwa 
w skutkach, mniejsze zaś dla błędów mało wpływających na końcowe re- 
zultaty. W przypadku rozpoznawania sygnału mowy takie rozróżnienie jest 
bardzo pożądane, gdyż niektóre fonemy mają znacznie większe znaczenie 
dla rczpoznania całego wyrazu niż inne. Przykładowo znacznie więcej 
informacji przenoszą generalnie spółgłoski niż samogłoski. Minimalizując 
łączną „cenę” błędów otrzymuje się w omawianych metodach program 
rozpoznający, przywiązujący szczególną wagę do tych najistotniejszych 
rozpoznań. 

Pomijając jednak z braku miejsca bardziej szczegółowe rozważania oraz 
odsyłając bardziej dociekliwych Czytelników do literatury w celu prześle- 
dzenia uzasadnień podanego dalej algorytmu, można stwierdzić, że w pod- 
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5.7. 


stawowym wariancie rozważanej metody funkcja przynależności obiektu 
opisanego wektotem cech X do określonej klasy i wyraża się za pomocą 
danych (5.28) i (5.29) wyjątkowo prosto: 


sM) =pIX) i=1,2,..,L (5.30) 
Oczywiście pozorna prostota tego wzoru ukrywa fakt, że funkcję gęstości 
prawdopodobieństwa /;(X) trzeba wyrazić analitycznie, co prowadzi do 
niekiedy bardzo złożonych formuł. Jedynie w przypadku, kiedy /;(X) można 
traktować jako rozkład normalny, funkcje (5.30) sprowadzają się do form 
kwadratowych, a w szczególnie dogodnym przypadku jednakowych ma- 
cierzy kowariancji dla wszystkich klas i funkcja przynależności daje się 
wyrazić jako funkcja liniowa. 


Pozostałe elementy systemu rozpoznającego 


Omówione algorytmy, pozwalając rozpoznawać elementy mowy polskiej, 
mogą stanowić domknięcie zadania identyfikacji sygnału, rozumianego 
jako zadanie badawcze. Z, punktu widzenia celów praktycznych, a w szcze- 
gólności ze względu na możliwość wykorzystania w systemach automatyki, 
układ rozpoznający jedynie elementy sygnału mowy musi być jednak uznany 
za niekompletny, Konieczne są przecież dalsze etapy analizy, kończące się 
rezultatem, który w p. 5.2 nazwano umownie rozumieniem mowy. Niestety, 
aktualna wiedza na temat tych etapów jest nader niekompletna i fragmenta- 
ryczna. Ponadto wiele uzyskanych rezultatów dotyczy języka naturalnego 
wprowadzanego do maszyny na drodze alfanumerycznej, zatem mimo oczy- 
wistych związków między ortograficznym zapisem wypowiedzi a jej dźwię- 
kową formą — wyniki te można wiązać z hasłem „sygnał mowy” jedynie 
z uwzględnieniem całego szeregu zastrzeżeń. Z, tych powodów wszystkie — 
nader złożone zresztą — procesy i operacje dokonywane w celu ,„rozumie- 
nia” mowy istniejącej już w maszynie w postaci rozpoznanych (być może 
z błędami!) elementów zbierzemy w tym podrozdziale i omówimy nader 
skrótowo. 

Podstawowy problem, jaki wyłania się przy próbie scalania elementarnych 
rozpoznanych elementów, wiąże się z niejednakowym, zmiennym tempem 
emisji sygnału mowy. Istotnie, jeśli wybrano określone jednostki podlega- 
jące rozpoznawaniu (na przykład fonemy lub mikrofonemy), to wzorzec 
wypowiedzi wyższego, rzędu (wyrazu, krótkiego, kilkuwyrazowego hasła lub 
całego zdania) — wyrażony oczywiście w postaci sekwencji takich samych, 
jak rozpoznane elementów sygnału mowy — będzie bez wątpienia zawierał 
tych jednostkowych elementów mniej lub więcej niż sygnał rozpoznawany, 
gdyż bardzo mało jest prawdopodobne, aby tempo artykulacji wzorca 
i rozpoznawanego wyrazu było takie samo. W dodatku nierównomierności 
tempa wypowiedzi mogą być różne w różnych jej częściach, w związku 
z czym niemożliwa jest prosta normalizacja typu przeskalowania osi czasu. 
Cóż pozostaje? Trzeba znaleźć metodę dopasowania elementów wzorca do 
elementów rozpoznawanej wypowiedzi, przy czym trzeba to zrobić dla 
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wszystkich rozpatrywanych wzorców. Oznacza to, że metoda dopasowania 
musi być niezawodna i szybko działająca. Z licznych prób i koncepcji roz- 
wiązania tego zagadnienia na uwagę zasługuje najpopularniejsza ostatnio 
metoda oparta na technice programowania dynamicznego. Metoda pro- 
gramowania dynamicznego służy zasadniczo do rozwiązywania wielo- 
etapowych zadań optymalizacji, gdyż z myślą o takich problemach została 
opracowana przez Ryszarda Bellmana w latach sześćdziesiątych i spopulary- 
zowana wśród automatyków i ekonomistów na całym świecie. Okazuje się 
jednak, że metoda ta może znaleźć zastosowanie w zadaniu nieliniowej nor- 
malizacji skali czasu przy rozpoznawaniu mowy. Przedstawimy dalej pod- 
stawowe koncepcje wykorzystania programowania liniowego do identyfi- 
kacji wząrca wypowiedzi opierając się na obszernej pracy dra Stefana Gro- 
cholewskiego. 

Zacznijmy od przykładu. Niech rozpoznawane słowo ma postać 


ossaa 
zaś wzorzec, z którym chcemy je porównać, niech ma postać 
0osSsa 


Jak widać, różnica jest nieznaczna i bez wątpienia chodzi o jedno i to samo 
słowo, jednak porównanie elementów zajmujących w obydwu wypowie- 
dziach te same pozycje daje wynik negatywny: zgodnych jest jedynie trzy 
spośród pięciu pozycji. Jaka jest rada? Zacznijmy od ilościowego wyrażenia 
miary niezgodności. Wprowadźmy w tym celu pojęcie odległości*” elemen- 
tów wzorca i analizowanej wypowiedzi. Załóżmy dla ustalenia uwagi, że 
odległość danego fonemu od niego samego wynosi l, samogłoski są od 
siebie odległe o 2, spółgłoska zaś odległa jest od samogłosek o 3 umowne 
jednostki: 


dfo, 0) = dfs, s) = d(a, a) = 1 65.31) 
dfa, o) = 2 (5.32) 
d(o, s) = dfa, s) = 3 (5.33) 


Na podstawie tych ustaleń można określić mapę odległości między elemen- 
tami wzorca a elementami podlegającej analizie wypowiedzi: 


a23411 
s31133 
531133 (5.34) 
013322 
013322 
ossaa 


*) Warto zauważyć, że dla dyskutowanych uprzednio mikrofonemów zastosowanie ana- 
lizy skupień dostarcza miar odległości między poszczególnymi skupieniami. Wynik ten 
można tu bezpośrednio wykorzystać. Jednak wprowadzając miarę odległości elementów 
wzorca i rozpoznawanej wypowiedzi można w ogóle pominąć etap rozpoznawania ele- 
mentów. Opisana dalej procedura może funkcjonować na próbkach sygnału bez ich wcześ- 
niejszej klasyfikacji i może być traktowana jako uogólnienie metody najbliższego sąsiada. 
W istocie, często wykorzystuje się programowanie dynamiczne wprost do rozpoznawania, 
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Optymalne dopasowanie wzorca do wypowiedzi nastąpi wówczas, kiedy 
znaleziona zostanie taka linia przebiegająca od lewego dolnego rogu mapy 
do prawego górnego, na której suma elementów (odległości) będzie mini- 
malna, W tabeli — wzór (5.34) — możliwych jest 321 różnych linii, opty- 
malna z nich została wytłuszczona i jak łatwo się przekonać — odpowiada 
ona najbardziej logicznemu przyporządkowaniu elementów wzorca ele- 
mentom rozpoznawanej wypowiedzi. 
Rozważany przykład był prosty i poszukiwane połączenia łatwo było zna- 
leźć. Aby algorytm mógł działać niezależnie'od stopnia złożoności, trzeba go 
nieco sformalizować. W tym celu przerobimy nieco tabelę ze wzoru (5.34), 
zastępując nazwy elementów wzorca i wypowiedzi numerami (zamiast o 
będzie 1, zamiast końcowego a będzie 5), zaś zamiast odległości elementów i 
oraz j, oznaczanej d(i, j) wpiszemy do tabeli minimalne skumulowane odleg- 
łości od punktu końcowego (5, 5), oznaczone przez D(i, j) i wyliczane ze 
wzoru 

D(i,j) = d(i,j)+ min[D(i+1,j), D(i+1,5+1), D(i,j+1)] (5.35) 
Jak widać reguła (5.35) jest rekursywna i musi być wyliczana w ustalonej 
kolejności, poczynając od D(5, 5), które oczywiście wynosi z definicji 1. 
Rezultat tych obliczeń podano we wzorze (5.36) 

510 8 5 2 1 


4.7143 44 
374477 

257799 (5.36) 
1 6101011 11 

123 4 5 


Łatwo zauważyć, że optymalna trajektoria jest teraz wyznaczona dokład- 
nie: wytyczają ją (poczynając od prawego górnego rogu) punkty o najmniej- 
szych wartościach. Właściwy cel całej procedury zawarty jest jednak w punk- 
cie początkowym, o współrzędnych (1,1). Jego wartość (w rozważanym 
przypadku 6) jest miarą stopnia zróżnicowania rozważanej wypowiedzi 
i badanego wzorca. Określając analogicznie wartości D(I,1) dla innych 
wzorców możemy, bez trudu wybrać ten wzorzec, do którego rozważany 
(rozpoznawany) wyraz jest najbardziej podobny, niezależnie od ewentual- 
nych różnic skali czasu wzorców i rozpoznawanej wypowiedzi. 

Omówiona procedura postępowania ma wiele odmian, przy czym zasadnicze 
ulepszenia, które wprowadzają do rozważanego schematu poszczególni 
autorzy, polegają na zmniejszeniu pracochłonności obliczeń. W ogólnym 
przypadku nie ma bowiem potrzeby wyliczania wszystkich wartości D(i, j) 
i zapełniania matrycy postaci (5.36) w całości, gdyż optymalna trajektoria 
zawsze przebiega w pobliżu głównej przekątnej matrycy — tak jak to było 
pokazane na przykładzie. Zamiast wyliczać wszystkie wartości D(i, j) wys- 
tarczy więc analizować wyłącznie „pas” o ustalonej szerokości, biegnący 
wzdłuż głównej diagonali, natomiast metody dyskutowane przez różnych 
autorów sprowadzają się do tego, by efektywnie ten pas wytyczać. Bliższe 
szczegóły tego procesu znaleźć można w cytowanej literaturze, warto jedynie 
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dodać, że jakość rozpoznawania, osiągana przy metodach stosowania pro- 
gramowania dynamicznego wprost do źródłowego sygnału, jest bardzo wy- 
soka (ponad 90%, poprawnych rozpoznań). Można oczekiwać, że w po- 
łączeniu ze wstępną identyfikacją elementów jakość rozpoznawania znacznie 
wzrośnie. 

W odniesieniu do zagadnień wyższego poziomu, niż omówiony poziom 
leksykalny, zastosowanie mają pozycje literatury dotyczące metod analizy 
i przetwarzania języka naturałnego w formie tekstów alfanumerycznych. 
Problematyka ta ma obecnie bogatą literaturę i wydaje się, że przynajmniej 
część uzyskanych na tej drodze wyników znajdzie zastosowanie w technice 
rozpoznawania mowy. Wszelkie pogłębione analizy i bardziej kategoryczne 
sądy są tu jednak przedwczesne: zarówno dziedzina przetwarzania języka 
naturalnego nie dorosła jeszcze do tego, aby dostarczać pewnych i uniwer- 
salnych algorytmów, jak również dyskutowana tu problematyka rozpozna- 
wania sygnału mowy nie dopracowała się metod identyfikacji dostarczają- 
cych tekst o porównywalnej wierności, jak terminale alfanumeryczne. 
Warto w uzupełnieniu dodać, że największe osiągnięcia w dziedzinie kom- 
puterowego przetwarzania tekstów języka naturalnego odnotowano w za- 
kresie języka angielskiego i japońskiego. Są to języki o tak odmiennej struk- 
turze i gramatyce w stosunku do języka polskiego, że korzystanie z zagra- 
nicznych osiągnięć ograniczać się musi do ogólnej inspiracji oraz podsta- 
wowych pomysłów. Podstawa systemu analizy i rozpoznawania tekstów 
języka polskiego musi powstać w pracowniach polskich badaczy. Prace 
na ten temat trwają od lat, przy czym największe osiągnięcia ma, jak się 
wydaje, grupa docenta Leonarda Bolca z Uniwersytetu Warszawskiego. 
Wybrane publikacje tej grupy, cytowane na końcu książki, stanowią znacznie 
lepsze wprowadzenie do tego zagadnienia niż zamieszczony tu, skrótowy 
z konieczności, opis. 

W najbardziej uproszczonym zarysie wspomniane etapy przetwarzania 
wyników rozpoznawania sygnału mowy mogą się przedstawiać następująco. 
Po zidentyfikowaniu wyrazów, których wzorce zostały uzgodnione w omó- 
wiony sposób z elementami rozpoznanymi w sygnale mowy, możliwe jest 
także określenie (z pewną dokładnością) formy gramatycznej wyrazu oraz 
jego roli w zdaniu. Równocześnie przechowywany w pamięci komputera 
zbiór schematów spodziewanych zdań oraz wykaz słów, odgrywających 
kluczową rolę przy identyfikacji sensu wypowiedzi pozwala na sformułowa- 
nie hipotezy co do treści zadania. Uzupełniające informacje mogą pocho- 
dzić z systemu analizującego intonację wypowiedzi. Wiadomo, że śledząc 
zmiany częstości tonu krtaniowego oraz obrys czasowy i amplitudowy wypo- 
wiedzi można wyróżnić typ zadania, akcentowane elementy i ogólny schemat 
wypowiedzi. Wszystkie te elementy łącznie składają się na identyfikację 
sensu wypowiedzi, który w istocie jest — w zakresie założonego kontekstu 
rozmowy — identyfikowany dość pewnie i precyzyjnie. Zwraca uwagę 
w tym schemacie jego sztywność, wynikająca z użycia wzorców spodziewa- 
nych zdań i znaczeń słów kluczowych, na których opiera się identyfikację. 
Schemat taki funkcjonuje bardzo dobrze, jeśli rozmowa mieści się wewnątrz 
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założonego scenariusza, zawodzi natomiast całkowicie w przypadku opu- 
szczenia tych ram. Wynika to z faktu odmiennej pozycji, w jakiej występuje 
przy rozmowie komputer i biorący udział w dialogu człowiek. Przy rozmowie 
pomiędzy ludźmi niewyobrażalnie dużą rolę odgrywa wspólne rozmówcom 
dziedzictwo kulturowe, wiedza o świecie, doświadczenie. Tego wszystkiego 
maszyna nie ma i dlatego każda próba dialogu będzie zawsze napotykała 
przeszkody — chyba że nauczymy się przekazywać komputerom naszą 
wiedzę o świecie, a maszyny staną się zdolne z wiedzy tej korzystać. Problem 
inżynierii wiedzy — jak się podkreśla z najnowszych pracach z zakresu 
sztucznej inteligencji — jest problemem kluczowym dla bardzo wielu za- 
gadnień: od omawianych tu probłemów rozpoznawania mowy i analizy 
języka naturalnego, do automatycznego tłumaczenia z jednego języka na- 
turalnego na inny, systemów odpowiadających na pytania (systemów 
ekspertowych) i sterowania robotów włącznie. Na jego rozwiązanie łoży się 
na całym świecie ogromne sumy, być może zatem jego zasadnicze elementy 
zostaną rozpracowane na tyle w bliskiej przyszłości, że odegrają istotną 
rolę w zagadnieniach rozpoznawania mowy. Bardziej prawdopodobny jest 
jednak odwrotny przypadek: to właśnie pokonanie barier związanych 
z rozpoznawaniem mowy wpłynie na takie upowszechnienie językowych 
kontaktów z maszynami, że problem rozpoznawania treści wypowiedzi, 
gromadzenia wiedzy i jej wykorzystywania rozwiązany zostanie niejako 
przy okazji. W chwili obecnej jest to jednak futurologia. Dzień dzisiejszy to 
w najlepszym przypadku systemy działające zgodnie z przytoczonym wyżej 
schematem: słów kluczowych, scenariuszy i szablonów zdań. Jest to pry- 
mitywne, ale przy konkretnie wyznaczonych celach systemu rozpoznawania 
— skuteczne. Na to nas dzisiaj stać. A jutro ...? 


6.1. 


Sygnał mowy w telekomunikacji 


Sygnał mowy w kanale telekomunikacyjnym 


W poprzedzających rozdziałach analizowano sygnał mowy w warunkach 
sztucznych i nienaturalnych: w laboratorium, gdzie bada się jego czasowe, 
częstotliwościowe i parametryczne własności, względnie w systemie automa- 
tyki, gdzie mowa jest wykorzystywana do przekazywania informacji po- 
między personelem a podlegającym nadzorowi systemem sterowania obiek- 
tu. Tymczasem sygnał mowy powstał i najczęściej do dziś jest wykorzysty- 
wany po prostu jako środek komunikowania się pomiędzy ludźmi. Jeśli 
komunikacja ta zachodzi bezpośrednio, wówczas technik nie ma w tym 
żadnego udziału i rozważanie takiego przypadku w niniejszej książce mija 
się z celem. Jeśli jednak komunikacja głosowa za pomocą mowy odbywa się 
na dużą odległość, wówczas muszą w niej uczestniczyć urządzenia technicz- 
ne, a zainteresowanie sygnałem mowy, który ma być przesyłany, rośnie 
proporcjonalnie do kosztów jego przesyłania. 

Wzrost odległości przesyłania sygnału z jednej strony i wzrost liczby osób 
zainteresowanych telekomunikacją (jako jej użytkownicy, a nie:jako twórcy 
systemów) — z drugiej strony, warunkują ustawiczny wzrost stopnia za- 
interesowania środkami i metodami przesyłania dużej liczby rozmów na du- 
że odległości — przy minimalnych kosztach. Rozważając najprostszy sche- 
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mat łącza telekomunikacyjnego (rys. 6-1) możemy stwierdzić, że koszty 
przesyłania informacji — w szczególności sygnału mowy —- przez to łącze 
rozkładają się nierównomiernie na poszczególne elementy. Koszt nadajnika 
i odbiornika nie różnią się w istotny sposób dla transmisji sygnału na małe 
i na duże odległości, są to zresztą prawie zawsze koszty niewielkie. Nato- 


6-1. Ogólny schemat przesyłania mowy przez kanał telekomunikacyjny. Na ogół koszt kanału jest 


większy niż koszty nadajnika i odbiornika, co skłania do poszukiwania takich rozwiązań, które za cenę 
wzrostu złożoności nadajnika i odbiornika dają możliwość lepszego wykorzystania kanału (przesłania 


nim większej liczby rozmów) 


Nadajnik - 1 


Nadajnik 2 


System 


6-2. Część nadawcza zwielokrotnienia 


(u góry) i część 
odbiorcza (u dołu) 


systemu 
telekomunikacyjnego 
ze zwielokrotnionym 


wykorzystaniem toru. 
Za pomocą 
odpowiedniego 
podziału sygnału 

w dziedzinie czasu lub b 
w dziedzinie 
częstotliwości można 
ten sam tor 
tejekomunikacyjny 
wykorzystywać do 
przesyłania dużej 
liczby rozmów 


Odbiornik-t 


miast koszty kanału przesyłania informacji rosną ze wzrostem odległości 
przesyłania i ze wzrostem wymogów stawianych jakości sygnału na odbior- 
czym końcu łącza, przy czym wspomniany wzrost kosztów :;jest znacznie 
szybszy niż proporcjonalny. Innymi słowy, przesłanie sygnału na dwukrotnie 
większą odległość z reguły kosztuje więcej niź dwukrotna cena przesłania na 
małą odległość, w czym głównie partycypują koszty budowy, utrzymania 
i konserwacji linii telekomunikacyjnych. Zestawienie małych kosztów na- 
dajnika i odbiornika z bardzo dużymi kosztami linii skłania do poszukiwa- 
nia możliwości zwiększenia efektywności wykorzystania linii przez przyłą- 
czenie do jednej linii większej liczby nadajników i odbiorników (rys. 6-2) 
oraz przez użycie urządzeń wielokrotnego wykorzystania toru. Nie ma po- 
trzeby dyskutowania tu możliwych metod wielokrotnego wykorzystania 
toru, jest ich bowiem bardzo wiele: z podziałem czasowym, częstotliwościo- 
wym itd. Problematyka ta ma zresztą własną, obszerną literaturę. Z punktu 
widzenia analizy i przetwarzania sygnału bardziej interesujące są nato- 
miast środki, które można podejmować w celu zmniejszenia informacyjnej 
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objętości sygnału mowy w kanale telekomunikacyjnym. Niezależnie bowiem 
od tego, jak zbudowany jest kanał i jaka obowiązuje organizacja przesyłania 
w nim informacji dźwiękowej: ze zwielokrotnieniem lub bez niego, z po- 
działem w dzidzinie czasu czy częstotliwości, cyfrowa czy analogowa, zaw- 
sze konfrontowane są ze sobą dwie wartości — przepustowość kanału 
i objętość informacyjna transmitowanego sygnału. Objętość sygnału musi 
być mniejsza od przepustowości kanału, gdyż w przeciwnym przypadku 
pojawią się niemożliwe do skorygowania zniekształcenia i przekłamania 
sygnału, wiążące się z niekontrolowaną utratą informacji. Równocześnie 
możliwości poszerzenia przepustowości kanału są ograniczone i bardzo 
kosztowne. W sumie rozwiązaniem jest więc jedynie ograniczenie objętości 
sygnału — im bardziej radykalne, tym korzystniejsze. 

Ograniczenie takie jest możliwe, co bezpośrednio wynika z rozważań prze- 
prowadzanych w poprzednich rozdziałach. W szczególności w p. 3.3 uzasad- 
niono tezę, że proces percepcji mowy wydobywa z pełnego sygnału dociera- 
jącego do błony bębenkowej, zawierającego znaczne ilości informacji, tylko 
niektóre jego własności. Wykazano przy tym, że na jakość percepcji, zrozu- 
miałość i wyrazistość mowy wpływają wszystkie jej cechy, lecz nie wszystkie 
w jednakowym stopniu. Przykładowo — o czym będzie mowa w p. 3.3 — 
nawet bardzo znaczne ograniczenie pasma częstotliwości analizowanego 
sygnału mowy nie powoduje zauważalnego zmniejszenia jej zrozumiałości. 
Fakt ten zresztą jest już wykorzystywany w telefonii, ponieważ przekazy- 
wane pasmo sygnału jest ograniczone do przedziału 350--3400 Hz, bez 
wpływu na jakość transmisji i skuteczność przekazywania informacji. Po- 
dobne rozważania wiązać można z amplitudową skalą sygnału, gdzie rzeczy- 
wisty zakres dynamiki sygnału można radykalnie zwęzić nie powodując 
dużej straty zrozumiałości przekazywanej mowy, chociaż jej jakość (oce- 
niana subiektywnie przez odbiorców) bardzo znacznie pogarsza się — trud- 
no rozpoznać charakterystyczne cechy indywidualnego głosu, a słuchanie 
przekazywanych informacji staje się męczące i nieprzyjemne. Znaczne re- 
zerwy tkwią także w czasowej strukturze sygnału. Zarówno w szumowych, 
jak i w quasi-periodycznych fragmentach sygnału można wyróżnić charakte- 
rystyczne, krótkie (kilkumilisekundowe) fragmenty sygnału, których repe- 
tycja dostarcza takiej samej informacji, jak transmisja całej głoski bez ogra- 
niczeń czasowych. Na tej zasadzie funkcjonują niektóre spośród syntezato- 
rów mowy, omawianych w p. 2.3, w których możliwość zastępowania peł- 
nego przebiegu sygnału w całym czasie jego trwania skróconą reprezentacją 
zasadniczo ogranicza obszar niezbędnej pamięci i umożliwia efektywną syn- 
tezę, przy ograniczonym zbiorze wzorców. Ten sam fakt usiłowano wyko- 
rzystywać w teletransmisji, jakkolwiek bez powodzenia, ze względu na duże 
trudności wydobywania takich „,charakterystycznych” fragmentów z sy- 
gnału mowy w czasie jego trwania oraz nieproporcjonalnie (do uzyskiwa- 
nych efektów) rozbudowany układ odbiornika, odtwarzającego zrozumiały 
dla człowieka sygnał mowy. A jednak redukcja ilości informacji zawartej 
w sygnale mowy, niezbędnej do ;jego przesłania i bezbłędnego odtworzenia 
w odbiorniku, jest stale aktualnym zadaniem badawczym i technicznym. 
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Skala potencjalnych możliwości w tym zakresie oszacowana została w p.4.6. 
Okazuje się, że stosując odpowiednio efektywne metody kompresji sygnału 
można — na razie jedynie teoretycznie niestety — przesłać przez ten sam 
system kanałów i łączy teletransmisyjnych kilkadziesiąt razy więcej rozmów, 
niż to ma miejsce obecnie. Jest więc o co się starać, chociaż uzyskać można 
to kosztem rozbudowy nadajnika i odbiornika sygnałów. Wspomniano jed- 
nak, że już obecnie koszty urządzeń nadawczych i odbiorczych są wielo- 
krotnie niższe niż linii przesyłowych. Nawet w przypadku wprowadzenia 
wysokowydajnych łączy światłowodowych prawidłowość ta się utrzyma, 
między innymi ze względu na systemy wielkiej skali integracji analogowe 
i cyfrowe, obniżające koszt układów elektronicznych o rzędy wielkości 
w ciągu niewielu lat. 

Reasumując można powiedzieć, że zarówno systemy linii jednokrotnie wy- 
korzystywanych (rys. 6-1), jak i systemy ze zwielokrotnieniem wykorzysta- 
nia toru (rys. 6-2) mogą wiele zyskać, jeśli w konstrukcji nadajników i od- 
biorników uwzględni się możliwości redukcji objętości informacyjnej sygna- 
łu mowy przed jego przesłaniem, a na odbiorczym końcu łącza dokona się 
odtworzenia pełnej formy sygnału w celu przekazania go w dogodnej do 
słuchania postaci odbiorcy informacji. Możliwe są przy tym różne po- 
dejścia. W najprostszym przypadku (rys. 6-3) sygnał mowy przed przekaza- 
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4-3. Układ ograniczający informacyjną objętość sygnału mowy w kanałe pozwała używać tańszego 
kanału lub zwiększać stopień zwielokrotnienia wykorzystania w kanale doskonalszym. Ograniczenie 
może dotyczyć amplitudowego, czasowego lub częstotliwościowego wymiaru sygnału. Rozszerzenie 
sygnału w odbiorniku (odtworzenie w naturalnej postaci) nie zawsze bywa konieczne 


niem może podlegać ograniczeniu w zakresie swoich podstawowych para- 
metrów, wyznaczających jego informacyjną objętość. Można więc rozważać 
sygnał ograniczony w dziedzinie częstotliwości, w zakresie amplitud oraz — 
w omówiony wyżej sposób — w czasie. Ze wszystkiego, co uprzednio zostało 
powiedziane, wynika, że możliwości tkwiące we wskazanym podejściu są 
ograniczone i w zasadzie zostały już wykorzystane w istniejących systemach 
telefonii rozmównej. Nowych rozwiązań poszukiwać trzeba na innej dro- 
dze. 

W podrozdziale 4.4 wykazano, że sygnał mowy może być opisany za pomocą 
parametrów, przy czym osiągana jest na ogół znaczna oszczędność w za- 
kresie ilości informacji zawartej w sygnale. Na tej zasadzie możliwe jest 
skonstruowanie układu ograniczającego objętość przesyłanej informacji 
(rys. 6-4), W nadajniku z sygnału są wydobywane parametry potrzebne do 
jego poprawnego odtworzenia na odbiorczym końcu łącza. Parametry te są 
przesyłane do urządzenia odbiorczego i tam następuje synteza mowy. 
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Parametrów można wyróżnić wiele: widmowych, czasowych, liniowej pre- 
dykcji itp. W zależności od tego, jakie parametry są wydobywane, prostsza 
lub bardziej złożona jest budowa układu nadawczego i odbiorczego, większa 
lub mniejsza jest osiągana kompresja, a także lepsza lub gorsza jest jakość 
przekazywanej mowy. Urządzenia służące do ograniczania objętości sygna- 
łu mowy metodą wydzielania i przesyłania jej parametrów nazywane są 
typowo wokoderami. Technika wokoderów liczy już sobie kilkadziesiąt lat, 
chociaż nadal daleko do tego, aby można było istniejące konstrukcje uznać 
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6-4. Parametryczny sposób kompresji mowy. W nadajniku dokonywana jest analiza sygnału 

i wydobywane są jego parametry. Przesyłanie parametrów angażuje kanał w znacznie mniejszym 
stopniu niż przesyłanie sygnału. W odbiorniku układ generujący sterowany parametrami odtwarza 
sygnał mowy o akceptowalnej jakości 


za optymalne i ostateczne rozwiązanie postawionego problemu, podobnie 
jak odległa jest jeszcze chwila, kiedy technika wokoderów będzie powszech- 
nie stosowana w telefonii użytkowej. Istnieje kilka technik, w których ty- 
powo buduje się wokodery, zatem pomimo omówienia zasadniczych faktów 
w p. 4.4 poświęcimy dodatkowo kolejny, następny podrozdział, aby omówić 
nieco dokładniej używane w teletransmisji metody parametrycznego opisu 
sygnału mowy, a także podać nieco szczegółów na temat budowanych 
wokoderów. 

Żanim to jednak nastąpi, przedyskutujemy inne możliwe — chociaż na 
obecnym etapie futurystyczne — podejścia do zadania kompresji sygnału 
mowy w kanale telekomunikacyjnym. W podrozdziale 4.6 podano oszaco- 
wania wielkości nadmiarowości sygnału mowy oraz przedyskutowano 
źródła tej nadmiarowości. Nie powtarzając przytoczonych tam argumentów 
należy stwierdzić, że nadmiarowość akustycznych struktur sygnału, usuwana 
(nie do końca zresztą) przez stosowanie nawet najdoskonalszych woko- 
derów, stanowi jedynie część nadmiarowości całego sygnału. Znacznie dalej 
posunięta redukcja informacyjnego nadmiaru, a zatem bez porównania 
większe oszczędności kosztów przesyłania sygnału mowy możliwe są w przy- 
padku zastosowania rozwiązania, przedstawionego schematycznie na rys. 
6-5. Jak widać, istota koncepcji polega na dokonaniu w odbiorniku próby 
rozpoznania sygnału mowy. Następnie kody rozpoznanych elementów 
zostają przesyłane przez kanał teletransmisyjny (praktycznie całkowicie bez 
nadmiarówych elementów, jeśli tylko nie obawiamy się zakłóceń), nato- 
miast na odbiorczym końcu łącza syntezator mowy, sterowany nadchodzą- 
cymi sygnałami, dokonuje odtworzenia sygnału. Zalety takiego systemu są 
oczywiste: daje on możliwość zredukowania nadmiarowych informacji 
niemal do zera, a transmisji podlega wyłącznie niezbędna, merytoryczna 
treść przekazywanych wiadomości. W dodatku pod wieloma względami 
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układy zastosowane w schemacie na rys. 6-5 mogą być prostsze i tańsze 
niż układy omawiane w p. 2.3 oraz 5.2--5.7. Proces rozpoznawania sygnału 
przed jego nadaniem nie musi bowiem obejmować elementów analizy leksy- 
kalnej, syntaktycznej i semantycznej — wystarcza identyfikacja elementów. 
Zresztą jakość rozpoznawania nie musi też być najwyższej jakości, gdyż na 
odbiorczym końcu łącza słucha wypowiedzi człowiek — myślący, rozumie- 
jący swojego rozmówcę, mogący odtwarzać sobie brakujące elementy syg- 
nału na podstawie kontekstu — obejmującego zarówno dany wyraz, całe 
zdanie lub kilka sąsiednich zdań. Wreszcie — zawsze można poprosić 
o powtórzenie niezrozumiałego fragmentu. W przypadku kiedy odbiorcą 
rozpoznawanych poleceń był komputer (por. rozdz. 5) wymagania musiały 
być pod każdym względem bardziej rygorystyczne. Zmienne tempo mowy 
nie stanowi w rozważanym przypadku żadnej przeszkody — przeciwnie, 
sterowany w naturalnym tempie syntezator na odbiorczym końcu łącza za- 
chowa — przynajmniej w części — intonację i dynamikę wypowiedzi, co 
niwelować będzie częściowo przykrą własność przedstawionego na rys. 6-5 


6-5. Hipotetyczna koncepcja kompresji mowy przy przesyłaniu jej metodą rozpoznawania w nadajniku, 
przesyłania zakodowanej treści wypowiedzi kanałem i syntezy mowy w odbiorniku na podstawie 
nadesłanego kodu. Taki system nie jest jeszcze dziś możliwy do skonstruowania, ałe miałby on 
najlepsze parametry w sensie oszczędnego wykorzystania kanału 


hipotetycznego systemu komunikacji, a mianowicie brak możliwości słu- 
chania naturalnego brzmienia głosu rozmówcy. Synteza mowy jest zresztą 
w omawianym przypadku także prostsza i łatwiejsza do realizacji, niż 
w przypadku niezależnego od człowieka produkowania mowy przez urzą- 
dzenie techniczne (por. p. 2.3), gdyż znaczna część parametrów procesu syn- 
tezy (na przykład czas trwania poszczególnych elementów mowy) zadawana 
jest przez łącze telekomunikacyjne w naturalnym następstwie procesu ana- 
lizy mowy. 

Reasumując można stwierdzić, że koncepcja ograniczenia informacyjnej 
objętości sygnału mowy na drodze rozpoznawania jej w nadajniku i syntezo- 
wania w odbiorniku jest realna, chociaż jeszcze nigdzie nie realizowana. 
Koncepcja ta stanowi równocześnie łącznik między rozważaniami przyto- 
czonymi w tym rozdziale a wynikami zawartymi w rozdziałach poprzednich, 
okazuje się bowiem, że proces rozpoznawania mowy wykorzystać można 
nie tylko w zadaniach automatyki i informatyki, ale również może on zna- 
leźć zastosowanie w telekomunikacji. Idąc jeszcze dalej tym samym tropem 
można twierdzić, że rozwiązanie problemu rozpoznawania mowy i udostęp- 
nienie efektywnych, tanich i skutecznie działających systemów rozpoznają- 
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6.2. 


cych do powszechnego użytku, uczyni zbyteczne wszystkie specjalizo- 
wane metody kompresji sygnału mowy — ze wszystkimi typami wokode- 
rów. Proces syntezy mowy jest bowiem — co wielokrotnie podkreślano— 
znacznie łatwiejszy i w zasadzie już obecnie całkowicie opanowany. Obiego- 
wo wymienia się już nawet nazwę „wokodery fonemowe” jako właściwy 
termin dla urządzeń działających na zasadzie podanej na rys. 6-5. Nazwa ta 
nie jest jednak najbardziej trafna, biorąc pod uwagę znacznie głębszy sto- 
pień przetworzenia sygnału mowy w tego typu urządzeniach w stosunku do 
typowej techniki wokoderowej, a ponadto nie jest bynajmniej sprawą prze- 
sądzoną, czy rozpoznawanymi i kodowanymi elementami mąja być właśnie 
fonemy. Być może bardziej celowe będzie użycie i tutaj proponowanych 
w rozdziale 5 mikrofonemów, a może przeciwnie — korzystne będzie użycie 
diad, triad, sylab — czy nawet całych wyrazów. Potrzebne są dodatkowe 
badania, analizy porównawcze i doświadczenia praktyczne, którym — na 
razie — stoi na przeszkodzie brak efektywnych algorytmów, metod i syste- 
mów rozpoznawania mowy. 


Metody kompresji sygnału mowy 


Przyjmując do wiadomości futurystyczną wizję, naszkicowaną pod koniec 
poprzedniego podrozdziału, musimy jednak zająć się metodami, które 
znajdują zastosowanie już obecnie — chociaż niezbyt często. Mowa o typo- 
wych wokoderach, urządzeniach, które w ogólnym przypadku wydobywają 
ustalone parametry nadawanego sygnału mowy, kodują je i przesyłają do 
odbiornika, który na ich podstawie dokonuje odtworzenia sygnału o zada- 
nych parametrach — czyli w przybliżeniu zadanego sygnału mowy. Oczy- 
wiście kluczowym problemem jest przy takim postawieniu sprawy wybór 
parametrów, użytych do opisu sygnału. Problem ten pojawiał się w książce 
i był dyskutowany już wcześniej, dlatego zostanie tu potraktowany skróto- 
WO. 

Najprostsze i najczęściej stosowane w praktyce są parametry widmowe. 
W nadajniku określa się widmo sygnału (oraz zazwyczaj dodatkowy para- 
metr, sygnalizujący, czy rozważany fragment sygnału ma charakter dźwięcz- 
ny, czy szumowy). W odbiorniku odtwarza się widmo sygnału za pomocą 
zestawu generatorów lub (częściej) zestawu filtrów o regulowanych cha- 
rakterystykach, których działanie jest wymuszane przez generator tonu 
lub/i szumu o charakterystykach zbliżonych do naturalnego źródła tonu 
krtaniowego i szumu spółgłosek szumowych. Dawniej analiza widma przed 
przesłaniem go do urządzenia odbiorczego była dokonywana na drodze 
analogowej za pomocą zestawu filtrów pasmowych lub niekiedy jednego 
filtru heterodynowo przestrajanego w zadanym przedziale częstotliwości. 
Obecnie analogiczne wyniki uzyskuje się zazwyczaj na drodze cyfrowej, 
używając metod krótkookresowej analizy Fouriera oraz algorytmu FFT 
(por. p. 4.2i 4.3). Technika nie ma jednak istotnego znaczenia, gdyż zasada 
działania pozostaje nie zmieniona. Ważne jest, że w widmie sygnału wy- 
dziela się pewną liczbę dyskretnych pasm częstotliwości, a następnie wydo- 
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bywa (w ten lub inny sposób) wolnozmienną obwiednię amplitud sygnału 
w tych pasmach, którą to obwiednię, szeregowo lub równolegle, przesyła 
się do odbiornika (rys. 6-6). Ze względu na kluczową rolę, jaką odgrywa 
w omówionej metodzie podział sygnału na pasma częstotliwości, odpowied- 
nie wokodery nazywa się pasmowymi. Naturalnie im mniej pasm, 
tym oszczędniejszy wokoder, gdyż wymaga przesłania mniejszej liczby 
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6-6. Struktura nadajnika (po lewej) i odbiornika (po prawej) wokodera pasmowego. Nadajnik wydzieła 

2 ciągłęgo sygnału mowy parametry pobudzenia (ton lub szum, ewentualna częstotliwość) oraz określa 

za pomocą filtrów i demodulatorów niskoczęstotliwościową obwiednię widma sygnału. Informacje te, 
przesłane przez kanał, wykorzystywane są w odbiorniku do syntezy sygnału mowy. Sygnał z generatora 
pobudzenia, sterowanego parametrami wydzielonymi w odbiorniku, podawany jest na n filtrów o takich 
samych parametrach jak w nadajniku. Sygnały kanałowe sterują intensywnością tonu lub szumu 

z generatora, docierającego do odpowiedniego pasma nadajnika. Przez zsumowanie sygnałów wyjściowych 
z filtrów powstaje sygnał zrozumiały jako sygnał mowy 
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informacji, równocześnie jednak maleje dokładność odtworzenia sygnału 
na odbiorczym końcu łącza. Przykładowo na rysunkach 6-7, 6-8 i 6-9 przed- 
stawiono przebiegi sygnałów w wokoderach pasmowych (symulowanych 
komputerowo) o odpowiednio trzech, sześciu i ośmiu pasmach. Pokazano 
przebieg sygnału wejściowego (lewy górny róg każdego rysunku), przebieg 
sygnału odtworzonego na wyjściowym łączu wokodera (poniżej), różnicę 
między sygnałem wejściowym i wyjściowym (na dole z lewej) oraz przykła- 
dowe trzy przebiegi w wybranych trzech pasmach wokodera (sygnały kana- 
łowe) — po prawej stronie rysunku. 

Wniosek z podobnych badań, a także z eksperymentów polegających na 
ocenianiu przez ludzi jakości mowy odtwarzanej przez wokóder, jest następu- 
jący: zrozumiałość i wyrazistość mowy polepsza się ustawicznie wraz ze 
wzrostem liczby pasm przesyłanych, jednak wzrost ten jest najszybszy przy 
małej liczbie filtrów, poczynając od około dziesięciu pasm dalszy przyrost 
jakości przesyłanej mowy wraz ze wzrostem liczby użytych pasm staje się 
na tyle wolny, że nie zawsze może być oceniony jako opłacalny. Z tego 
względu można przyjąć, że optymalna liczba pasm częstotliwości używanych 
w wokoderach pasmowych wynosi około dziesięciu, minimalna natomiast 
(taka, poniżej której jakość przesyłanej mowy jest niedopuszczalnie zła) — 
około pięciu. W użyciu praktycznym są jednak również wokodery zawiera- 
jące kilkadziesiąt filtrów pasmowych, gdyż nawet przy tak dużej liczbie 
użytych pasm stosowanie wokodera jest opłacalne: suma sygnałów wszyst- 
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kich kanałów, powiększona o dodatkową informację na temat charakterys- 
tyki pobudzenia (ton krtaniowy/szum) zajmuje w linii telekomunikacyjnej 
znacznie mniej miejsca niż oryginalny przebieg sygnału mowy. Wynik ten 
jest osiągany głównie dlatego, że sygnały na wyjściach filtrów wokodera 
(rys. 6-10) zmieniają się wolno (częstotliwość graniczna sygnałów obwiedni 
jest na poziomie kilkunastu do trzydziestu herców maksymalnie), a także 
mają znacznie mniejszą dynamikę niż oryginalny sygnał. Przesyłanie wszyst- 
kich sygnałów kanałowych zajmuje więc znacznie węższe pasmo w linii 
niż sygnał oryginalny. Zatem stosując zarówno metody zwielokrotnienia 
w dziedzinie częstotliwości, jak i metody zwielokrotnienia w dziedzinie 
czasu — można w tym samym łączu teletransmisyjnym „„zmieścić”” znacznie 
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więcej sygnałów przetworzonych wokoderowo niż sygnałów w naturalnej 
formie. 

Zaletami wokodera pasmowego (rys. 6-6) są: prosta budowa oraz dobre 
powiązanie struktury wokodera z naturalnymi procesami artykulacji i per- 
cepcji mowy (por. rozdz. 2 i 3). Istotnie, urządzenie analizujące wokodera 
ma postać zestawu filtrów lub — w przypadku najnowocześniejszej, cyfro- 
wej realizacji — ogranicza się do zastosowania algorytmu FFT i procedur 
uśredniających. Odbiornik ma również prostą budowę: generator tonu, 
generator szumu, zestaw filtrów o takich samych charakterystykach jak 
w nadajniku (często, przy łączności dwukierunkowej są to fizycznie te same 
filtry) oraz układy mnożące, wytwarzające sygnały w poszczególnych pas- 
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mach. Bardziej wyrafinowane realizacje przewidują dodatkowe użycie 
analizatora zmian częstotliwości podstawowej (tonu krtaniowego Ev) 
i stosowną modulację funkcji generatora w nadajniku. Wbrew pozorom 
nie służy to jedynie zwiększeniu naturalności odbieranej mowy, która za- 
chowuje dzięki temu elementy naturalnej intonacji i brzmi milej dłaucha, 
ale sprzyja to także większej zrozumiałości odbieranego sygnału, gdyż mo- 
notonny, pozbawiony elementów intonacyjnych sygnał jest rozumiany 
słabo, a zmęczeni słuchacze często popełniają błędy przy interpretacji na- 
dawanych wypowiedzi. 

Ostatnim zagadnieniem, o którym warto wspomnieć w związku z budową 
wokodera pasmowego, jest problem sposobu rozmieszczenia wybranych 
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6-10. Przebiegi sygnałów kanałowych w wielokanałowym wokoderze pasmowym. Podany przykład 
dotyczy symulacji cyfrowej wokodera, stąd dyskretny charakter sygnałów kanałowych (wypowiedź 
serce, głos męski). Widoczna jest powolna zmienność sygnałów kanałowych, umożliwiająca ich 
oszczędne przesyłanie w kanale telekomunikacyjnym 


258 


pasm częstotliwości. Zagadnienie to było dyskutowane uprzednio w innym 
kontekście, a mianowicie z punktu widzenia wprowadzania sygnału mowy 
do maszyny celem rozpoznawania go i automatycznego rozumienia. W przy- 
padku wokodera wnioski są jednak odmienne od uprzednio przytoczonych. 
Przy przesyłaniu sygnału mowy ii przy tak małej liczbie wyróżnianych pasm, 
jak to typowo ma miejsce w odniesieniu do wokodera, celowe jest stosowa- 
nie logarytmicznej skali częstotliwości i rozmieszczanie częstotliwości środ- 
kowych poszczególnych pasm i ich szerokości zgodnie z regułą postępu geo- 
metrycznego. Niekiedy rekomendowana jest również tak zwana skala su- 
biektywna (Kóniga), w której w zakresie do 1 kHz pasma są rozmieszczone 
równomiernie w skali liniowej (daje to korzystny efekt „„zagęszczenia” 
analizy dolnych pasm częstotliwości, szczególnie istotnych dla rozpoznawa- 
nia mowy), a powyżej wspomnianej częstotliwości — skała staje się loga- 
rytmiczna. Wszystkie wspomniane nierównomierności skali łatwo jest 
osiągnąć w przypadku stosowania zarówno metod analogowych, jak i cy- 
frowych (por. 4.2 i 4.3). Natomiast stosowanie algorytmu FFT zmusza do 
korzystania z dodatkowych programów „,przeskalowujących” widmo, gdyż 
oryginałne widmo uzyskane na drodze obliczeniowej zawsze dane jest, 
w tym przypadku, w skali liniowej. W przypadku cyfrowej realizacji woko- 
dera można natomiast osiągnąć stabilniejszą jego pracę, lepsze parametry 
filtrów kanałowych, funkcji okna czasowego, generatorów odtwarzających 
sygnał oraz pewniejsza jest (bardziej odporna na zakłócenia) transmisja 
sygnałów między nadajnikiem i odbiornikiem. 

Obok wokodera pasmowego, który może być rozpatrywany jako konstruk- 
cja o ustalonej renomie, ale już stosunkowo mało nowoczesna, pojawiły się 
liczne koncepcje innych wokoderów. Naturalnie na pierwszym miejscu 
pojawiają się tu konstrukcje działające z wykorzystaniem formantów. Kon- 
cepcja wokodera formantowego doczekała się dziesiątków skutecznie dzia- 
łających modeli laboratoryjnych i wydaje się nadal bardzo obiecująca, mimo 
„konkurencji” ze strony nowocześniejszych podejść, między innymi opar- 
tych na metodach liniowej predykcji. Strukturę wokodera formantowego 
przedstawiono na rys. 6-11. W podanym na rysunku schemacie nie wpro- 


Mowa „( Formant -1 


Nadajnik 


6-11. Struktura wokodera formantowego. U góry nadajnik, u dołu odbiornik, W nadajniku wydzieła się 
trajektorie zmian czasowych formantów, a w odbiorniku, sterując odpowiednio generatorami i sumując 
ich sygnały, odtwarza się sygnał mowy 
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wadzono szczegółów procesu wydzielania częstości formantowych ani kon- 
strukcji układu sterowanego parametrycznie przez informacje o częstotli- 
wościach formantowych, a służącego do generacji sygnału wyjściowego 
w odbiorniku. Problem wydzielania formantów był bowiem dyskutowany 
w p. 4.4, zatem mimo dużej pomysłowości, jaką odznaczali się niektórzy 
twórcy wokoderów w budowie układów wydzielających formanty na drodze 
analogowej lub cyfrowej — trudno by było dodać tutaj coś naprawdę istot- 
nie nowego. Jedyne, co można stwierdzić, to fakt większej, niż w przypadku 
systemów rozpoznawania mowy, tolerancyjności wokoderów na ewentualne 
niedokładności i błędy przy lokalizacji formantów. W szczególności problem 
ciągłości czasowej formantu, silnie podkreślany w dyskusji ukierunkowanej 
na rozpoznawanie mowy, staje się w wokoderze mniej ważny z tego po- 
wodu, że jeśli nawet część analizująca (nadajnik) wokodera wygeneruje 
(na skutek błędu) „skoki”” w wartościach formantu, to zostaną one „wy- 
gładzone” w odbiorniku na skutek bezwładności przestrajanych parametrycz- 
nie układów syntezy mowy. Z drugiej strony dyskutowany przy syntezie 
mowy na podstawie wartości formantów (p. 2.3) problem stanów przejścio- 
wych między głoskami i trudności związanych z ich generacją — w wokode- 
rach także nie istnieje. Przejścia od jednego do drugiego fonemu są bowiem 
śledzone bezpośrednio w nadajniku i odtwarzane w odbiorniku wiernie 
według oryginału — co zapewnia na ogół nie tylko dużą zrozumiałość mo- 
wy, ale także —w pewnym zakresie — odtwarza jej indywidualne cechy 
związane z głosem konkretnego mówcy. Innymi słowy, zbudować wokoder 
formantowy jest łatwiej niż osobno system analizy formantów i osobno 
system syntezy mowy na podstawie częstotliwości formantowych— co jednak 
nie znaczy, że konstrukcja wokodera według schematu z rys. 6-11 jest łatwa. 
Próby wykorzystania częstotliwości formantowych do kompresji sygnału 
mowy w kanale telekomunikacyjnym są jednak stale podejmowane, gdyż 
stopień kompresji (stosunek objętości sygnału po kompresji do objętości 
sygnału oryginalnego) jest w przypadku użycia wokodera formantowego 
bardzo duży, kilkakrotnie większy niż wyniki osiągane przy wokoderach 
kanałowych. W praktyce jakość sygnału odtwarzanego w wokoderach 
formantowych bywa również lepsza niż w wokoderach kanałowych, zatem 
gdyby nie wspomniane trudności z wydzielaniem formantów w ńadajniku 
i ich wykorzystywaniem w odbiorniku, można by było zupełnie zarzucić 
tęchnikę wokoderów pasmowych i interesować się jedynie wokoderami 
formantowymi — zanim oczywiście nie nadejdzie era wokoderów fonemo- 
wych, wzmiankowanych w poprzednim podrozdziale. 

Do kompresji sygnału mowy w kanale telekomunikacyjnym można uży- 
wać (lub próbować używać) wszystkich znanych parametrów mowy, istotne 
znaczenie ma jednak tylko jeszcze jedna koncepcja. W podrozdziale 4.5 
omówiono technikę liniowej predykcji, wskazując, że jest to technika nowo- 
czesna, związana z użyciem metod cyfrowych, a przy tym bardzo skutecznie 
opisująca sygnał mowy w kategoriach pewnych jego parametrów — możli- 
wych do interpretacji jako współczynniki transmitancji toru głosowego 
w danym stadium procesu artykulacji. Można więc przyjąć, że wydobywa- 
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nie, przesyłanie i wykorzystywanie w odbiorniku parametrów funkcji linio- 
wej predykcji stanowi kolejną możliwość konstrukcji wokodera (rys. 6-12). 
W istocie, koncepcja taka jest realizowana i daje bardzo dobre rezultaty. 
Z informacji, jakie napływają — bardzo skąpo zresztą — z laboratoriów 
najbardziej renomowanych firm produkujących sprzęt telekomunikacyjny, 
wynika, że istnieje już kilka udanych modeli wokodera liniowo-predykcyj- 
nego i jest to aktualnie najbardziej obiecujący kierunek badań. Zastosowa- 
nie do transmisji sygnału mowy parametrów liniowej predykcji daje możli- 
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6-12. Struktura wokodera opartego na zasadzie predykcji liniowej. W nadajniku komputer oblicza 
parametry liniowej predykcji sygnału. Po przesłaniu przez kanał, współczynniki predykcji liniowej 
służą do obliczeniowego (znowu potrzebny jest komputer) odtwarzania przebiegu sygnału mowy 


wość uzyskania bardzo dobrej zrozumiałości sygnału mowy odbieranej przy 
ekstremalnie małej zajętości przenoszącego transmisję kanału. Doniesienia 
firmy Siemens, cytowane na końcu książki, podają jako typowy dla woko- 
dera liniowo-predykcyjnego strumień transmitowanej informacji rzędu 
2: 103 bit/s. Porównując to ze znanymi oszacowaniami objętości informa- 
cyjnej pełnego sygnału mowy (por. p. 4.6) dochodzimy do wniosku, że 
technika liniowej predykcji pozwala osiągać kilkusetkrotne „„zagęszczenie” 
ilości przekazywanej informacji, co wyrażone w nieco innej formie pozwala 
sądzić, że stosując wokoder działający na omawianej zasadzie możemy tą 
samą siecią połączeń przekazywać kilkaset razy więcej rozmów telefonicz- 
nych. W istocie jest to wynik imponujący. Oczywiście efekty metod linio- 
wej predykcji nie są osiągane za darmo — w stosunku do wszystkich wcześ- 
niej omawianych metod, technika liniowej predykcji stawia najwyższe wy- 
magania aparaturze nadajnika i odbiornika sygnału. Obliczenia parametrów 
liniowej predykcji wymagają mocy obliczeniowej sporego komputera, jeśli 
mają być wyznaczane na bieżąco (w czasie rzeczywistym), co jest oczywiście 
wymogiem koniecznym dla wokodera. Podobnie wymagające są algorytmy 
odtwarzania sygnału na podstawie parametrów predykcyjnych — jest to 
zresztą obszar, w którym powstaje ostatnio najwięcej prac badawczych. 
Jeśli jednak utrzyma się dotychczasowy trend w mikroelektronice, jeśli 
koszt wykonywania obliczeń będzie sukcesywnie malał, a koszty przesyłania 
informacji — mimo zastosowania światłowodów — pozostaną duże, wów- 
czas wokodery liniowo-predykcyjne mogą liczyć na upowszechnienie. Chyba 
że rozwiną się techniki rozpoznawania mowy — co już kilkakrotnie sugero- 
wano. 
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6.3. 


Podsumowując trzeba stwierdzić, że w problemie kompresji sygnału mowy 
przy jego przesyłaniu kanałem telekomunikacyjnym nie powiedziano jeszcze 
ostatniego słowa. Powstają wciąż nowe opracowania, a żadne z nich nie 
zostało jeszcze powszechnie zastosowane w praktyce. 


Wybrane problemy kryptofonii 


W poprzednich rozdziałach książki skupiono uwagę głównie na zagadnie- 
niach maksymalnie zrozumiałego przekazywania mowy. Obecnie, na za- 
kończenie, przedstawione zostanie w telegraficznym skrócie kilka wybra- 
nych zagadnień z zakresu metod maksymalnie niezrozumiałego przekazy- 
wania mocy, czyli kryptofonii. Potrzeby przekazywania mowy w formie 
niezrozumiałej dla przypadkowego, postronnego odbiorcy wyłaniają się 
bardzo często nie tylko w zagadnieniach wojskowych, ale także w życiu 
gospodarczym, komunikacji pomiędzy firmami, a nawet osobami prywatny- 
mi. Upowszechnienie użytkowania telefonii i (zwłaszcza) radiotelefonii 
spowodowało wzrost zainteresowania metodami utajniania mowy, gdyż 
inaczej te najdogodniejsze środki komunikacji międzyludzkiej stają się mało 
przydatne ze względu na niemożliwość wykorzystywania ich do przekazy- 
wania wiadomości w jakimkolwiek sensie i stopniu poufnej. Przechwytywa- 
nie i podsłuch rozmów telefonicznych stało się podstawowym źródłem 
pozyskiwania informacji nie tylko przez wojsko, służby specjalne i policję, 
ale przez wywiad gospodarczy, konkurencyjne firmy, czy wręcz przestępców 
poszukujących materiału do szantażu. W tej sytuacji zapotrzebowanie na 
urządzenia, dokonujące celowej i odwracalnej deformacji sygnału mowy 
przed jego nrzesłaniem w kanale telekomunikacyjnym, stale rośnie. 
O ileż wygodniej i swobodniej można rozmawiać, jeśli wiadomo, że sygnał 
zabezpieczony jest przed podsłuchem ze strony przypadkowego „„hobbisty”. 
Mówimy tu o zabezpieczeniu przed podsłuchem postronnej osoby nie dys- 
ponującej rozbudowanym laboratorium akustycznym i środkami odtwarza- 
nia mowy, gdyż w praktyce każda metoda utajniania mowy może zostać 
przy odpowiednim nakładzie pracy rozszyfrowana, a przesłany sygnał — 
odtworzony w jego oryginalnej, nie utajnionej postaci. Metody utajniania 
mają więc ten sam sens, jak zamki na drzwiach: mają zniechęcić przypadko- 
wego złodzieja (w tym przypadku — podsłuchiwacza amatora) i opóźnić 
ewentualną akcję prawdziwego fachowca. Trzeba bowiem być świadomym, 
że przy dzisiejszych, bardzo efektywnych metodach analizy sygnału, anga- 
żowanych komputerach i wiedzy na temat kryptografii, kryptofonii i me- 
todach deszyfracji kodów — żaden system utajniania nie jest stuprocentowo 
pewny. Przeciwnie, można być pewnym, że każdy szyfr, kod, technika utaj- 
niania, maskowania i zniekształcania zostanie prędzej czy później rozszyfro- 
wana, a jedynym czynnikiem, na jaki można mieć wpływ stosując rozliczne 
zabezpieczenia — to czas, jaki będzie potrzebny zespołowi łamiącemu szyfr. 
Dąży się więc do tego, aby czas ważności i aktualności przesyłanej wiado- 
mości był mniejszy od czasu niezbędnego do jej odszyfrowania przez osobę 
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nieupoważnioną (nie znającą klucza, według którego dokonano maskowa- 
nia sygnału). 

Metody utajniania sygnału mowy podzielić można ze względu na postać, 
w jakiej występuje sygnał, na cyfrowei analogowe. Efektywniejsze i bogatsze 
w możliwości są metody cyfrowe, gdyż w przypadku kiedy sygnał jest w pos- 
taci serii dyskretnych kodów (PCM, Delta lub dowolnych innych), wówczas 
do jego utajnienia można by użyć wszelkich, bardzo rozbudowanych, łatwo 
dostępnych i doskonale wszechstronnie poznanych metod kodowania, 
szyfrowania i maskowania danych alfanumerycznych — gdyż czym w końcu 
różni się ciąg symboli kodowych przenoszących sygnał mowy od ciągu sym- 
boli kodowych, przekazujących tekst pisany? Technika komputerowa, mi- 
kroprocesory, elektroniczne maszyny szyfrujące i deszyfrujące — wszystko 
to może być użyte do maskowania treści zawartych w sygnale mowy, 
a „dawkowanie trudności” szyfru może być tu szczegółowo i precyzyjnie 
odmierzane. Innymi słowy, upowszechnienie cyfrowej transmisji sygnału, 
wprowadzenie cyfrowej telefonii a także upowszechnienie komputerów 
w telekomunikacji będzie sprzyjać i ułatwiać szyfrowanie i utajnianie syg- 
nału mowy. Techniki takiego szyfrowania są przedmiotem dyskusji w specja- 
listycznej literaturze i wykraczają daleko poza problematykę, którą można 
wiązać z hasłem analizy sygnału mowy. 

Specyficzne i bardzo ciekawe problemy wynikają natomiast przy próbach 
maskowania sygnału mowy traktowanego jako sygnał analogowy. Masko- 
wanie polega w tym przypadku na celowym i odwracalnym niszczeniu 
struktury czasowej lub/i częstotliwościowej sygnału, w ten sposób, aby 
generalnie upodobnić przesyłany sygnał do szumu białego. Zasada działania 
urządzeń kryptofonicznych (tak zwanych skramblerów) polega więc na 
przykład na następujących zabiegach (stosowanych oddzielnie lub łącznie 
w różnych kombinacjach): 

— zmianie struktury widma: przestawienie pasma, odwrócenie widma, 
przesyłanie poszczególnych pasm oddzielnie i montowanie ich w odbior- 
niku, 

— zmianie struktury czasowej sygnału: przestawianie kolejności fragmen- 
tów czasowych sygnału, okresowo zmienna inwersja fazy sygnału, zmiana 
proporcji czasowych (iloczasów) poszczególnych głosek, 

— zmianie struktury amplitudowej sygnału: spłaszczenie dynamiki sygnału, 
mowy, wypełnianie przerw szumem, nieregularne, zmienne w czasie wzmoc- 
nienie sygnału, modulacja obwiedni czasowo-amplitudowej sygnału. 
Efektywne maskowanie i utajnianie sygnału mowy napotyka duże trudności 
ze względu na nadmiarowość sygnału mowy, a także z powodu nad wyraz 
efektywnego rozpoznawania, nawet bardzo zniekształconego sygnału mowy. 
Okazuje się, że nawet zmieniając położenie na osi czasu elementów mowy 
uzyskuje się w wielu przypadkach sygnał, który jedynie przy pierwszym 
czytaniu robi wrażenie całkowicie losowego, niezrozumiałego bełkotu. 
Możliwość wychwycenia słuchem i zinterpretowania takich elementów syg- 
nału, jak częstość tonu krtaniowego, częstości formantów i ich zmiany, 
rytm wypowiedzi, zachowany dzięki dużym różnicom amplitudy elementów 
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samogłoskowych i spółgłoskowych wpływają na możliwość bezpośredniego 
odgadnięcia treści zamaskowanej wypowiedzi — szczególnie w tych przy. 
padkach, kiedy zbiór możliwych komunikatów jest znany lub może być 
odtworzony. Jeśli nawet odsłuchowe rozpoznanie przemieszanego czasowo 
sygnału ze skramblera jest niemożliwe, wówczas stosunkowo prosta analiza 
sygnału pozwala odczytać regułę maskowania i odtworzyć sygnał w wersji 
oryginalnej. 

Lepsze wyniki dają na ogół metody widmowe. Tu. już nawet najprostszy 
z możliwych zabieg inwersji widma (odwrócenie widma sygnału w ten spo- 
sób, aby obszar dużych częstotliwości przypadał na obszar — w zamasko- 
wanym sygnale — częstości małych i na odwrót) bardzo skutecznie utrudnia 
zrozumienie wypowiedzi. Tymczasem realizacja takiej inwersji jest tech- 
nicznie niesłychanie prosta: wystarczy dokonać modulacji sygnału (ampli- 
tudowej) i brać pod uwagę odpowiednio przesuniętą wstęgę boczną. 

Jeszcze skuteczniejsze są metody wokoderowe. Mowa podzielona zostaje 
na pasma, a następnie sygnał jest odtwarzany przy zmienionej numeracji 
pasm. Zrozumiałość tak spreparowanej mowy jest niewielka, a trudności 
dła potencjalnego nie uprawnionego odbiorcy są bardzo duże. Trzeba bo- 
wiem odgadnąć, jakie były oryginalne pasma, jak je pomieszano i jakie są 
reguły rozkładu szerokości i częstości środkowych pasm, które w dodatku 
z reguły zmienia się co jakiś czas podczas trwania transmisji. Oczywiście 
dla zachowania efektywności porozumiewania się nadawcy z upoważnio- 
nym (właściwym) odbiorcą sygnału mowy, ten ostatni musi dysponować 
informacją na temat sposobu zaszyfrowania sygnału i sprawną aparaturą na 
bieżąco deszyfrującą sygnał. Naturalnie pojawia się przy tym problem odpo- 
wiedniego zabezpieczenia zarówno klucza (informacji o metodzie szyfro- 
wania), jak i deszyfrującej aparatury. 

Podsumowując ten krótki podrozdział trzeba powiedzieć, że wiedza na te- 
mat sygnału mowy może służyć zarówno jej sprawnemu i maksymalnie 
zrozumiałemu przekazywaniu, jak i może być użyta do uczynienia transmisji 
mowy całkowicie niezrozumiałą. Obszerniejsze omówienie problematyki 
utajniania i szyfrowania mowy można znaleźć w specjalistycznych publi- 
kacjach, zebranych w wykazie literatury na końcu książki. Celem przedsta- 
wionego podrozdziału było jedynie zasygnalizowanie problemu, wskazanie 
na możliwości i zachęcenie do ewentualnych prac i studiów w tej dziedzinie, 
gdyż -—— co trzeba raz jeszcze podkreślić — powszechność telefonii i radio- 
telefonii rozmównej spowoduje już wkrótce wzrost zainteresowania możli- 
wościami zabezpieczenia rozmowy przed podsłuchem. Tym samym proble- 
matyka, uprawiana dotychczas w ośrodkach wojskowych i siłą rzeczy mało 
znana szerszemu ogółowi, będzie mogła znaleźć się w zakresie zaintereso- 
wania niemal wszystkich laboratoriów zajmujących się problematyką syg- 
nału mowy. 


Zakończenie 


Prezentowana książka nie wyczerpała wszystkich zagadnień wiążących się 
z problemem sygnału mowy. Ale też — co trzeba podkreślić — nie pojawiła 
się ona na „bibliograficznej pustyni”. Zagadnienia sygnału mowy, jego ana- 
lizy, rozpoznawania, przesyłania, syntezy i wykorzystania były i są tematem 
wielu prac. Książkę tę napisano z myślą o uzupełnieniu istniejącego obrazu, 
o dodaniu informacji tam, gdzie jest ich dostępnych niewiele, a wstrzymaniu 
się od powtarzania zagadnień powszechnie znanych, dobrze opracowanych 
i wielokrotnie opisanych. Dlatego wiele razy odwoływano się w tekście 
książki do literatury, której wykaz zamieszczono na dalszych stronach, 
dlatego dobierano materiał poszczególnych rozdziałów i wybierano sposób 
jego prezentacji mając na uwadze istniejące i przygotowywane prace innych 
autorów, dlatego wreszcie dokonano obszernych studiów literaturowych 
w celu znalezienia takiej formuły książki, która nie dublując innych pozycji 
może dostarczyć sumę niezbędnych podstawowych informacji i może wnieść 
niektóre nowe wiadomości — odmienne od przedstawianych w pozostałych 
pracach. 

Na zakończenie wypada jednak wskazać te pozycje literatury, które w naj- 
większym stopniu zaważyły na koncepcji książki, Zaczynając od pracy dra 
Czesława Basztury (Źródła, sygnaly i obrazy akustyczne. Przetwarzanie, 
analiza, rozpoznawanie), która zapewne ukaże się niemal równocześnie 
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z tą książką, a której istnienie „„zwalniało” Autora od konieczności pisania 
o sprawach dobrze rozpracowanych tamże (sygnał mowy w aspektach tele- 
komunikacyjnych, technika liniowej predykcji, analiza cepstralna i wiele 
innych — potraktowanych tu skrótowo zagadnieniach). Przy okazji Autor 
składa drowi Baszturze podziękowania za umożliwienie zapoznania się 
z powstającą książką, dzięki czemu możliwe było uniknięcie powtórzeń. 
Wiele informacji na temat zagadnień nie rozwiniętych w tej książce znaleźć 
można w pracy zbiorowej, której redaktorem był prof. Janusz Kacprowski: 
Akustyka mowy i diagnostyka akustyczna, Warszawa 1980, wyniki zaś naj- 
nowszych badań nad sygnałem mowy polskiej zbierane są okresowo w wy- 
dawanych przez PWN, pod redakcją prof. Wiktora Jassema, pracach 
zbiorowych zatytułowanych Speech analysis and. synthesis. Ostatni, piąty 
tom tego wydawnictwa ukazał się w roku 1980. Z książek nieco starszych 
wymienić trzeba podstawowe dla wszystkich zajmujących się mową dzieło 
prof. „Wiktora Jassema Podstawy fonetyki akustycznej wydane przez 
PWN w 1973 roku. Istnienie tej książki zwalniało Autora — w jego mnie- 
maniu — od konieczności obszerniejszego dyskutowania fonetycznych 
aspektów mowy, na przykład stosunku elementów mowy żywej (na przy- 
kład fonemów) do stosowanego ortograficznego zapisu. Kolejna i ostatnia 
już wymieniana tu książka, to wydana bardzo dawno, bo aż w 1966 roku 
książka M. A. Sapożkowa Sygnał mowy w telekomunikacji i cybernetyce. 
Książka stanowiła w swoim czasie prawdziwą encyklopedię wiedzy o sygnale 
mowy, układach jego formowania, zapisywania, transmisji, ograniczania 
w objętości informacyjnej i rozpoznawania. Wprawdzie technika poszła 
ogromnie naprzód i dla współczesnego elektronika schematy gęsto upako- 
wane lampami są jaskrawym anachronizmem, jednak sygnał mowy nie 
zmienił się od tamtych czasów, a nasza wiedza o nim — wbrew pozorom — 
nie wzbogaciła się aż tak bardzo. Z tego względu zagadnienia obszernie 
dyskutowane w tej książce: struktura sygnału mowy, jego elementy, zasady 
oceny :jego jakości itd., mogły być tu potraktowane skrótowo. 

Mimo wspomnianych skrótów książka jest nadspodziewanie obszerna. 
Bardzo wiele można bowiem napisać i powiedzieć na temat tak prostego 
i elementarnego na pozór obiektu — sygnału mowy. A przecież dla każdego 
człowieka są to sprawy oczywiste — wystarczy powiedzieć, usłyszeć, zrozu- 
mieć, zatelefonować... Dopiero kiedy zamiast nas wytwarzają mowę lub 
mają ją rozpoznawać komputery — uświadamiamy sobie złożoność tego pro- 
cesu i nikłość naszej wiedzy w stosunku do rozmiarów problemu. W ten spo- 
sób — nie po raz pierwszy i nie po raz ostatni — te mądre maszyny po- 
magają nam lepiej zrozumieć i poznać nas samych. Zrozumieć i zadumać 
się nad doskonałością tworów Natury, które przed tysiącleciami wytwo- 
rzyły system artykulacji dostosowany do wcześniej perfekcyjnie stworzonego 
słuchu i jeszcze wcześniej uformowanego mózgu, dzięki czemu ludzie uzys- 
kali najważniejsze narzędzie rodzącej się cywilizacji — sygnał mowy. 
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Dodatek 


Sygnał mowy a tekst pisany 


Opisując w tekście książki — szczególnie w tabelach, na rysunkach oraz 
przy prezentacji przykładów -— określone zjawiska zachodzące w sygnale 
mowy, napotykano na trudności związane z różnicami, jakie zachodzą 
pomiędzy pisownią a wymową tych samych wyrazów, fraz i zdań. Wymowa 
podlega własnym prawom, wynikającym z anatomii i fizjologii narządów 
mowy, a także z uwarunkowań natury kulturowej, tradycji i regionalnych 
obyczajów. Natomiast pisownia jest skodyfikowana przez ortografię 
i w znacznym stopniu odbiega od rzeczywistej wymowy. Rozbieżności te 
są wielokierunkowe: często ta sama litera używana jest do zapisu zupełnie 
różnych brzmieniowo głosek (na przykład w wyrazie babka pierwsze i dru- 
gie b oznacza odmienny dźwięk), innym zaś razem tę samą głoskę rejestruje 
się pisząc — zależnie od tradycji — odmienne litery (by wspomnieć tylko 
o dwoistości u oraz ó w języku polskim). Dla zapisu jednej głoski można 
używać więcej niż jednej litery (rż, sz, cz, dz, dzi — by wymienić tylko nie- 
które typowe dla naszego języka dźwięki), natomiast często także używa się 
jednej litery dla zapisu dwu kolejnych fonemów — przykładowo a odpo- 
wiada w wymowie sekwencji fonemów om, a głoski odpowiadającej literze 
c w ogóle nie ma — gdyż wymawiane jest zawsze ts. Podobnych przykła- 
dów można mnożyć bez liku, a ich wspólnym mianownikiem jest postawiona 
na wstępie teza: pomiędzy językiem mówionym i językiem pisanym jest 
trudna do przebycia przepaść, wyjątkowo dobrze znana tym wszystkim, 
którzy w trudzie opanowują wymowę nieznanego języka na podstawie dru- 
kowanych podręczników. 

Chcąc więc opisywać — tak jak w tej książce — sygnał mowy jako głosową 
formę języka, trzeba koniecznie posłużyć się jednoznacznym i powszechnie 
przyjętym systemem notacji, rejestrującym brzmienie poszczególnych wy- 
razów i głosek w sposób niezależny od ich tradycyjnej pisowni. System taki 
jest znany i używany dla notacji zjawisk dźwiękowych we wszystkich języ- 
kach świata. Wykorzystuje specjalne symbole międzynarodowej trans- 
krypcji fonematycznej, które — dokładnie stosowane i precyzyjnie określa- 
ne — pozwalają odwzorowywać zjawiska zachodzące podczas mówienia 
w sposób równie wierny i szczegółowy, jak rejestracja na taśmie magneto- 
fonowej. Symbole transkrypcji szczegółowej są niewygodne w użyciu, gdyż 
niemal wszystkie odbiegają od typowych czcionek używanych w drukar- 
fiach, co sprawia kłopoty poligraficzne, a w dodatku dla wiernego od- 
wzorowania zjawisk zachodzących podczas mówienia opatrywane są licz- 
nymi dodatkowymi symbolami, sygnalizującymi między innymi stopień 
otwarcia lub przymknięcia ust, położenie języka lub artykulację nosową. 
Zainteresowanych szczegółową transkrypcją (nie tylko zresztą głosek pol- 
skich) odesłać więc należy do książki profesora Wiktora Jassema Podstawy 
/onetyki akustycznej, w której wszystkie te subtelności obszernie wyjaśniono. 
Dla potrzeb tej książki przyjęto transkrypcję uproszczoną, łatwiejszą w za- 
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pisie i prostszą w stosowaniu. Jej zasady przedstawione będą dalej wraz 
z krótką charakterystyką głosek języka polskiego. 


Samogłoski 


Powstają podczas swobodnego przepływu powietrza wzdłuż linii środkowej: 
języka i są wszystkie bez wyjątku dźwięczne. W transkrypcji szczegółowej 
wyróżnia się (dla różnych języków) łącznie kilkadziesiąt samogłosek, na- 
tomiast dla języka polskiego celowe jest wyróżnienie sześciu samogłosek: 
i (lis), + (pył), e (szewc), a (rak), o (rok), u (mur). Warto zwrócić uwagę, 
że głoska zapisywana ortograficznie jako Y w transkrypcji ma zapis * 
(i przekreślone). Wynika to z faktu, że w międzynarodowej transkrypcji 
znak y zarezerwowano dla głosek brzmiących jak w niemieckim słowie sii£ 
lub francuskim /utie, Y zaś to dźwięk występujący w niemieckim kiissen. 
Należy też odnotować różnicę w podanej liście głosek, opartej na akustycznej 
analizie zjawisk zachodzących podczas artykulacji mowy, w stosunku do 
„Szkolnej” listy polskich samogłosek. Uwzględnia się w niej nosowe ę i ą. 
Głoski te pominięto w podanej liście, ponieważ nie istnieją. Zjawisko za- 
pisywane ortograficznie jako ę lub ą jest zawsze dwugłoską złożoną z e lub 
o (odpowiednio) i którejś z głosek nosowych (zależnie od kontekstu) — 
najczęściej jest to rg (patrz dalej), Wiadomość ta jest zapewne dia wielu. 
Czytelników sprzeczna z ich subiektywnymi odczuciami, ale analiza spektro- 
gramów sygnału mowy nie pozostawia w tej sprawie cienia wątpliwości. 


Spółgłoski zwarte 


Powstają podczas chwiłowego całkowitego zatrzymania przepływu powie- 
trza z płuc, po którym następuje plozja — wybuchowy wypływ powietrza 
połączony z charakterystycznym dźwiękiem. Zależnie od tego, czy pod- 
czas zwarcia i plozji struny głosowe drgają, czy nie — mamy do czynienia 
z odmianą dźwięczną lub bezdźwięczną danej głoski. Zależnie od miejsca 
zwarcia wyróżnić można głoski zwarte wargowe — p (pas) i b (bas), zębo- 
we — t (tom) i d (dom), podniebienne — c (kino) i $ (ginąć) i' tylnojęzy- 
kowe-—k (kura) i g (góra). Przy dokładnej transkrypcji wyróżnia - się 
jeszcze odmiany głosek t i d: dziąsłową i cerebralną, zaznaczane oddzielny- 
mi symbolami ze względu na ich odmienność akustyczną. Warto także 
zwrócić uwagę na rozróżnienie c i k oraz F i g— nie występuje w piśmie, 
ale konieczne przy analizie sygnału mowy. 


Spółgłoski trące 


Artykulacja tych głosek polega na wywołaniu turbulencji powietrza wypły- 
wającego z płuc w miejscu celowo utworzonego przewężenia w narządach 
mowy. Głoski te, podobnie jak wcześniej omówione, mają odmiany dźwięcz- 
ne i bezdźwięczne, a ich klasyfikacja jest oparta na miejscu utworzenia 
szczeliny, przy czym nie wszystkie możliwe lokalizacje są wykorzystywane 
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w języku polskim — na przykład brak w nim spółgłosek trących- dwu- 
wargowych (jak na przykład w;japońskim wyrazie fudżi), zębowych (słynne 
angielskie the) lub środkowojęzykowych (jak w niemieckim: ich). Ponadto 
transkrypcja dokładna wyróżnia tu wiele subtelnych różnic, możliwych do 
pominięcia przy prezentacji transkrypcji przybliżonej, stosowanej w tej 
książce. Oto w języku polskim występują spółgłoski trące zębowo-wargo- 
we — f (frak) i v (wrak), zazębowe — s (kosa) i z (koza), zadziąsłowe — 
$(szary) i 3 (żar), dziąsłowo-środkowojęzykowe —e(siano) i 4 (ziarno) 
oraz tylnojęzykowe — x (niech). Ta ostatnia głoska praktycznie nie"ma 
w języku polskim dźwięcznego odpowiednika, chociaż przy szczególnie 
starannej wymowie frazy niech będzie można zauważyć występowanie 
udźwięcznionego ch (co fonetycznie zapisuje się symbolem 4). 


Spółgłoski zwarto-trące 


W głoskach tych występuje z reguły para elementów — głoska zwarta i seg- 
ment odpowiadający głosce trącej, ale o krótszym czasie trwania. Oba 
elementy mają to samo miejsce artykulacji i łączą się w charakterystyczną 
całość, co przesądza o traktowaniu ich jako odrębnych głosek. Głoski te, 
nie występujące w ogóle w wielu językach (na przykład we francuskim) 
najobficiej występują w języku polskim, który ma ich aż 6. Ich podział 
wynika z miejsca artykulacji, zatem wyróżnia się: zazębowe-is (praca) 
i dz (sadza), dziąsłowe — u (czytać) i dz (drożdże), dziąsłowo-środkowo- 


językowe — fa (ciało) i dą (działo). 


Spółgłoski nosowe 


Przy artykulacji głosek nosowych opuszczony języczek podniebienia mięk- 
kiego udostępnia dla emisji głosu jamę nosową, podczas gdy jama ustna, 
zamknięta w punkcie zależnym od rodzaju artykułowanej głoski, stanowi 
„bocznik akustyczny”, Klasyfikacja głosek nosowych zależna jest od punktu 
zamknięcia jamy ustnej, w związku z czym wyróżnia się głoski: dwuwargo- 
we-— m (matka), .dziąsłowe — n_ (nora), środkowojęzykowe — n (koń) 
i tylnojęzykowe — q (bank). Spółgłoski nosowe praktycznie nie występują 
w formie bezdźwięcznej, natomiast uczestniczą w formowaniu innych 
głosek nazalizowanych — na przykład ę. Przy artykulacji tej ostatniej 
głoski występuje zawsze e, po którym — zależnie od kontekstu — może 
występować głoska n (tęcza), p (miękki) lub r (ręka). 


Spółgłoski boczne 


Przy artykulacji głosek bocznych powietrze uchodzi obok języka — po 
jednej stronie lub obustronnie, W języku polskim jest w zasadzie jedna 
głoska omawianego typu, mianowicie ł (łody). Głoska ł (łydka) zanika 
na rzecz głoski płynnej w (dłoń) i dostrzegana jest jedynie w bardzo staran- 
nej wymowie scenicznej, 
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Samogłoski niesylabiczne 


Głoski te pod względem artykulacyjnym przypominają samogłoski, nato- 
miast ich funkcje są identyczne ze spółgłoskami. W języku polskim są 
dwie takie głoski: płynne j (jodła) i zaokrąglone w (ławka). Warto zwrócić 
uwagę na transkrypcję głoski ortograficznie zapisywanej jako ł. Między- 
narodowa transkrypcja przypisuje jej symbol w zgodnie z wymową angiel- 
ską, natomiast symbol ł w transkrypcji oznacza inny dźwięk („ktesowe” Ł). 


Spółgłoska drżąca 


Wyjątkowo nieregularny obraz ma głoska r (ryba). Podczas jej artykulacji 
język uderza o podniebienie, tworząc wyjątkowo nieregularny zespół ele- 
mentów akustycznych: szumy sąsiadują tu z odcinkami periodycznego 
przebiegu sygnału, impulsy obok formantów oraz okresy przerw. 
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